應(yīng)用

技術(shù)

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點(diǎn)新聞
企業(yè)注冊個人注冊登錄

開年第一單!阿里花7億收購了一家怎樣的公司?

2019-01-09 10:26 IDC圈

導(dǎo)讀:由此可見,此次收購并非突然,是基于阿里巴巴長期戰(zhàn)略發(fā)展的需要而為之。

1月8日,彭博社消息稱,阿里巴巴收購了位于德國柏林的數(shù)據(jù)處理公司Data Artisans。另據(jù)外媒報道,此次交易金額為1.033億美元(9000萬歐元),Data Artisans未就此事置評。

阿里巴巴官確認(rèn)確有此項(xiàng)投資,并表示,“過去兩年,阿里巴巴一直是Apache Flink最大貢獻(xiàn)者之一。阿里巴巴將和Data Artisans一起持續(xù)為所有Flink社區(qū)用戶、合作伙伴和開發(fā)者提供更多支持,致力于不斷投資技術(shù)和未來”,但對具體金額不作評論。

Data Artisan 成立于2014年,專門提供為公司企業(yè)部署大規(guī)模數(shù)據(jù)處理解決方案的服務(wù)。該公司的解決方案可以實(shí)時管理和部署這類數(shù)據(jù),以便客戶更合理更快速地做出決策。Data Artisans由開源數(shù)據(jù)流處理技術(shù)Apache Fink的幾位開發(fā)者創(chuàng)辦。

阿里巴巴為什么選擇Apache Flink?

此次收購,其實(shí)可從阿里巴巴與Apache Flink的不解之緣看出端倪。阿里巴巴計(jì)算平臺事業(yè)部資深技術(shù)專家莫問曾在云棲大會上發(fā)表演講《阿里巴巴為什么選擇Apache Flink?》,或?yàn)榇舜问召徛裣铝朔P。

阿里選擇Flink的背景和初衷

隨著人工智能時代的降臨,數(shù)據(jù)量的爆發(fā),在典型的大數(shù)據(jù)的業(yè)務(wù)場景下數(shù)據(jù)業(yè)務(wù)最通用的做法是:選用批處理的技術(shù)處理全量數(shù)據(jù),采用流式計(jì)算處理實(shí)時增量數(shù)據(jù)。在絕大多數(shù)的業(yè)務(wù)場景之下,用戶的業(yè)務(wù)邏輯在批處理和流處理之中往往是相同的。但是,用戶用于批處理和流處理的兩套計(jì)算引擎是不同的。

因此,用戶通常需要寫兩套代碼。毫無疑問,這帶來了一些額外的負(fù)擔(dān)和成本。阿里巴巴的商品數(shù)據(jù)處理就經(jīng)常需要面對增量和全量兩套不同的業(yè)務(wù)流程問題,所以阿里就在想,我們能不能有一套統(tǒng)一的大數(shù)據(jù)引擎技術(shù),用戶只需要根據(jù)自己的業(yè)務(wù)邏輯開發(fā)一套代碼。這樣在各種不同的場景下,不管是全量數(shù)據(jù)還是增量數(shù)據(jù),亦或者實(shí)時處理,一套方案即可全部支持,這就是阿里選擇Flink的背景和初衷。

Flink的誕生

Flink誕生于歐洲的一個大數(shù)據(jù)研究項(xiàng)目StratoSphere。該項(xiàng)目是柏林工業(yè)大學(xué)的一個研究性項(xiàng)目。早期,F(xiàn)link是做Batch計(jì)算的,但是在2014年,StratoSphere里面的核心成員孵化出Flink,同年將Flink捐贈Apache,并在后來成為Apache的頂級大數(shù)據(jù)項(xiàng)目,同時Flink計(jì)算的主流方向被定位為Streaming,即用流式計(jì)算來做所有大數(shù)據(jù)的計(jì)算,這就是Flink技術(shù)誕生的背景。

2014年Flink作為主攻流計(jì)算的大數(shù)據(jù)引擎開始在開源大數(shù)據(jù)行業(yè)內(nèi)嶄露頭角。區(qū)別于Storm、Spark Streaming以及其他流式計(jì)算引擎的是:它不僅是一個高吞吐、低延遲的計(jì)算引擎,同時還提供很多高級的功能。比如它提供了有狀態(tài)的計(jì)算,支持狀態(tài)管理,支持強(qiáng)一致性的數(shù)據(jù)語義以及支持Event Time,WaterMark對消息亂序的處理。

Flink在阿里的現(xiàn)狀

Flink是一個低延遲、高吞吐、統(tǒng)一的大數(shù)據(jù)計(jì)算引擎。在阿里巴巴的生產(chǎn)環(huán)境中,F(xiàn)link的計(jì)算平臺可以實(shí)現(xiàn)毫秒級的延遲情況下,每秒鐘處理上億次的消息或者事件。同時Flink提供了一個Exactly-once的一致性語義。保證了數(shù)據(jù)的正確性。這樣就使得Flink大數(shù)據(jù)引擎可以提供金融級的數(shù)據(jù)處理能力。

基于Apache Flink在阿里巴巴搭建的平臺于2016年正式上線,并從阿里巴巴的搜索和推薦這兩大場景開始實(shí)現(xiàn)。目前阿里巴巴所有的業(yè)務(wù),包括阿里巴巴所有子公司都采用了基于Flink搭建的實(shí)時計(jì)算平臺。同時Flink計(jì)算平臺運(yùn)行在開源的Hadoop集群之上。采用Hadoop的YARN做為資源管理調(diào)度,以 HDFS作為數(shù)據(jù)存儲。因此,F(xiàn)link可以和開源大數(shù)據(jù)軟件Hadoop無縫對接。

目前,這套基于Flink搭建的實(shí)時計(jì)算平臺不僅服務(wù)于阿里巴巴集團(tuán)內(nèi)部,而且通過阿里云的云產(chǎn)品API向整個開發(fā)者生態(tài)提供基于Flink的云產(chǎn)品支持。

阿里巴巴自2015 年開始改進(jìn)Flink,并創(chuàng)建了內(nèi)部分支Blink,目前服務(wù)于阿里集團(tuán)內(nèi)部搜索、推薦、廣告和螞蟻等大量核心實(shí)時業(yè)務(wù)。12 月20 日,由阿里巴巴承辦的Flink Forward China 峰會在北京國家會議中心召開,來自阿里、華為、騰訊、美團(tuán)點(diǎn)評、滴滴、字節(jié)跳動等公司的技術(shù)專家與參會者分享了各公司基于Flink 的應(yīng)用和實(shí)踐經(jīng)驗(yàn)。在大會的主題演講上,阿里巴巴集團(tuán)副總裁周靖人宣布,阿里巴巴內(nèi)部Flink 版本Blink 將于2019 年1 月正式開源,之后會經(jīng)過社區(qū)討論合并回Flink。

由此可見,此次收購并非突然,是基于阿里巴巴長期戰(zhàn)略發(fā)展的需要而為之。