應(yīng)用

技術(shù)

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點新聞
企業(yè)注冊個人注冊登錄

上云十年:阿里云的奇幻漂流

2019-11-14 09:51 腦極體
關(guān)鍵詞:阿里云SaaS云服務(wù)

導(dǎo)讀:回到真實的商業(yè)故事中,很少有人會將阿里與“困境”這樣的字眼聯(lián)系在一起,尤其是在花團錦簇、全民狂歡的雙十一之后。

現(xiàn)代人的生活是不缺乏刺激的。我們總能在電影院或化身“沙發(fā)土豆”,作為旁觀者,與鳳凰社、夜魔俠、蜘蛛俠等諸多主角們經(jīng)歷了一場場“安全的冒險”,體會他們掙脫束縛的破釜沉舟,欣賞他們踏上未知冒險的勇氣。

回到真實的商業(yè)故事中,很少有人會將阿里與“困境”這樣的字眼聯(lián)系在一起,尤其是在花團錦簇、全民狂歡的雙十一之后。

但少有人知道,這場剁手黨的“春晚”,卻是技術(shù)人眼中冰峰林立、人跡罕至的“珠穆朗瑪峰”。而阿里云的工程師們,剛剛經(jīng)歷過一場大汗淋漓的搏斗。

01

極致雙11:阿里云的技術(shù)攀爬

11月11日0點,阿里云的數(shù)據(jù)顯示,雙11訂單創(chuàng)建峰值達(dá)到了54.4萬筆/秒。這個“數(shù)據(jù)海拔”有多恐怖呢?

面對這個全球最大規(guī)模的流量洪峰,就連在商海身經(jīng)百戰(zhàn)的阿里巴巴CEO張勇,都有點“上頭”。

當(dāng)天他坦誠道,自己心里最關(guān)心的,不是銷售數(shù)字,而是整個技術(shù)的峰值?!拔覀兡軌蛎棵腌娭味嗌俟P訂單的處理,既不發(fā)生錢的錯誤,又不發(fā)生錯誤的庫存,被錯誤地記錄,這個才能保證整個商業(yè)順暢運轉(zhuǎn)?!?/p>

而這些沉甸甸的指標(biāo),被百分之百地押注在了阿里云上。就在兩個月前,阿里巴巴將數(shù)以十萬計的物理服務(wù)器從線下數(shù)據(jù)中心遷移到了云端。

雙11核心系統(tǒng)全部云化,意味著什么?

意味著,當(dāng)有客戶問起,“你們阿里巴巴自己的業(yè)務(wù)也跑在阿里云上嗎??”“沒錯,全部都在,包括雙11”——阿里云終于可以這樣回答了。

意味著在中國鮮少能搶到“首發(fā)權(quán)”的技術(shù)高嶺地帶,亞馬遜、微軟、谷歌等云計算巨頭都沒能實現(xiàn)的壯舉, “飛天”首次實現(xiàn)了!

而從100%依托海外廠商(數(shù)據(jù)系統(tǒng)),到100%的自研云,“飛天”這艘巨艦航行了整整十年。

它是如何在充滿危險與未知的商業(yè)大海中遠(yuǎn)征,跨越一個個暗礁生存下去的,或許會是雙11之后,另一場人人都會極有代入感的大冒險。

02

使命召喚:少年阿里的“飛天”遠(yuǎn)征

所有英雄電影的開頭,主角們總能憑借一個神秘的召喚,打開人生試煉的序幕。

而阿里的云計算遠(yuǎn)征,開場并沒有那么多玄幻和浪漫。它源于一筆錙銖必較的經(jīng)濟賬——彼時阿里巴巴的IT架構(gòu),淘寶和支付寶等核心業(yè)務(wù)都架設(shè)在大量IBM小型機、Oracle數(shù)據(jù)庫,以及EMC、戴爾存儲設(shè)備之上。

一臺“小機”要幾十萬到百萬人民幣,數(shù)據(jù)庫軟件費更高達(dá)數(shù)千萬,加上維護(hù)費和其他支出,普通人掰掰手指都能想到,阿里高速發(fā)展的背后,是駭然的算力成本。

有什么具體影響呢?大概也就是錢嘩嘩地花出去了,消費者的用戶體驗也沒能提升多少。

每天早上八九點鐘,阿里的CPU(中央處理器)的使用率會漲到98%。就像電腦內(nèi)存占用過多一樣,用戶瀏覽、下單、付款等操作的流暢度總令人心驚膽戰(zhàn)。

阿里的流量還在以十倍二十倍的速度狂飆,就連IBM這些IT界的“金字招牌”,也從來沒有應(yīng)對幾億人訪問規(guī)模的經(jīng)驗。以后該怎么辦?阿里只能自我救贖。

2008年9月,王堅從微軟出走,來到了西湖。此后,他最廣為人知的身份之一,不是阿里首席架構(gòu)師,而是“忽悠馬云的騙子”。因為,他篤定云計算是未來。

馬云并不懂技術(shù),他沒聽懂王堅講的那些技術(shù)優(yōu)勢,也不了解云計算背后到底是什么。但他聽懂了一點,不上云,光是繼續(xù)買服務(wù)器就足以讓阿里破產(chǎn)。而這,也將是此后數(shù)年間中國絕大多數(shù)企業(yè)要面對的共同難題。

既然別無選擇,憑著一句“使命召喚”,王堅帶著從微軟過來的幾個舊部,和林晨曦緊趕慢趕才招兵買馬的“水手們”,從零開始,邁出了云計算大冒險的第一步。

2008年10月,一艘載著中國云之夢的船只被定名為“飛天”,正式展開了風(fēng)帆。

03

打開魔盒:“去IOE”,阿里云迎擊的第一只巨獸

我愿意以《少年派的奇幻漂流》,來看待“飛天”的起航。

李安導(dǎo)演以派(π)這個無理數(shù)當(dāng)做少年的名字,預(yù)示著人生旅途中即將遭遇的一切未知。這與“飛天”團隊當(dāng)時的境況何其相似。他們都遙望著大洋彼岸的美麗新世界,但航程中勢必充滿了可能被挑戰(zhàn)、被拒絕、以及充滿未知的要素與技術(shù)規(guī)律。

茫茫大海,掌舵人必須要規(guī)劃航線。2009年9月,“阿里云”以子公司的身份正式亮相,它接收了命運派送的第一個重大任務(wù)盒子,放出了“去IOE”這頭“巨獸”。

今天看來,這是個潘多拉魔盒,里面裝著麻煩與幸福的種子,同樣也有著希望和力量。

所謂的“去IOE”,就是采用自主研發(fā)和替代性方案來重構(gòu)阿里的數(shù)據(jù)系統(tǒng),以擺脫過去對IBM小型機、Oracle數(shù)據(jù)庫和EMC2存儲設(shè)備這“三大件”的依賴。

勝利的獎賞將非常豐厚,一方面能幫助阿里巴巴節(jié)約非??捎^的運營成本;同時有望成為幫助眾多中小企業(yè)降低技術(shù)應(yīng)用門檻的“基礎(chǔ)設(shè)施”。

但“巨獸”的鎧甲也同樣堅硬?!叭OE”,不僅要將傳統(tǒng)的集中式系統(tǒng)架構(gòu)全部改為云計算的分布式架構(gòu),還要確保業(yè)務(wù)跑在上面,性能和穩(wěn)定性能夠超越IOE。

除了自研技術(shù)本身相對稚嫩之外,當(dāng)時的“飛天”團隊,手里現(xiàn)成的武器只有兩把——一個是以開源軟件為基礎(chǔ)的數(shù)據(jù)計算系統(tǒng)“云梯1”,和以“飛天”為基礎(chǔ)、完全自研云計算系統(tǒng)的“云梯2”。

兩套系統(tǒng)都需要內(nèi)部測試。林晨曦先找了淘寶技術(shù)團隊,拼命“賣安利”。負(fù)責(zé)人同意了,但底下的Oracle 工程師一聽就急眼了——這豈不是砸自家兄弟的飯碗嗎?!

差點引發(fā)人員動蕩的“內(nèi)部試用”,最終在各方的講事實擺道理前得以順利開展。但拆掉了傳統(tǒng)的IOE,自研架構(gòu)就真能頂上了嗎?

恐怕連王堅都不敢打包票。

“明明可以坐高鐵,卻偏偏要騎自行車去上?!薄@是當(dāng)時阿里內(nèi)部工程師們對“飛天”的普遍看法。

被強行趕鴨子上架的,恰恰是最“趕時間”的阿里金融。馬云親自跟時任阿里金融的胡曉明下了任務(wù)書——必須將系統(tǒng)架構(gòu)搭建在阿里云上。

穩(wěn)定性要求極其嚴(yán)格的金融系統(tǒng),如何與初生的“飛天”(Apsara)平臺融合,打造一個“去IOE樣板”?“牧羊犬”計劃就這樣誕生了。

中間有許多“打怪”的有趣細(xì)節(jié),堪稱技術(shù)界的“吐槽大會”:比如問題層出不窮,系統(tǒng)總愛出錯,“分布式計算”也被調(diào)侃為“分步試計算”。又比如工程師必須24小時緊盯著系統(tǒng),“人肉云計算”由此得名。

戲謔的背后,是阿里云的“至暗時刻”。不少集團員工質(zhì)疑這個業(yè)績常年墊底的子公司為何還要繼續(xù)存在,許多“飛天”戰(zhàn)友也在長久的攻堅戰(zhàn)前倒下,出逃的出逃、轉(zhuǎn)崗的轉(zhuǎn)崗,2012年的阿里云“共創(chuàng)會”上,王堅甚至摔了話筒。

好在故事的結(jié)尾,以喜劇收場。

在一次較大的升級之后,“飛天”系統(tǒng)穩(wěn)定得“不像是阿里云的作品”。2012年底,王堅將“飛天獎”頒給了阿里云的全體員工,頒獎詞是——堅持就是偉大。

這一堅持,就堅持到國內(nèi)云市場爆發(fā),阿里云成為數(shù)萬個網(wǎng)站、游戲和應(yīng)用的承載者,“去IOE”這只歷史的大boss也最終倒下。2013年5月,阿里最后一臺小型機下線。7月,淘寶最后一個Oracle數(shù)據(jù)庫下線。

這場戰(zhàn)役中,“飛天”和阿里云奇跡似的活了下來。

04

由一入多:阿里巴巴的集體“登月”

剛推倒boss的興奮沒有持續(xù)多久,阿里云的探險家們又刷新出了一張刺激無比的“新地圖”。

2013年,正式完成“去IOE”運動的阿里云意氣風(fēng)發(fā)。但記性好的同學(xué)一定還記得,前面我們提到的阿里云“兩板斧”——基于開源Hadoop的云梯1和基于飛天的云梯2(此時已經(jīng)改叫ODPS)。

在墾荒階段,左右開弓是個不錯的選擇。不過3012年了,也是時候搞搞“精細(xì)化”運營了。不然兩邊分別投入,家大業(yè)大也經(jīng)不起這么造啊。

選A還是選B,成為阿里技術(shù)的關(guān)鍵選擇。答案大家已經(jīng)知道了,那就是——自主可控的飛天。

經(jīng)過研發(fā)團隊數(shù)月的優(yōu)化和開發(fā),ODPS順利實現(xiàn)5K升級,也就是5000臺規(guī)模集群投入運營,這項技術(shù)究竟有多厲害呢?在當(dāng)時,創(chuàng)造了計算100TB排序只需30分鐘的新世界紀(jì)錄。

與此同時,“云梯1”也逐漸向ODPS遷移。于是到了2013年底,更加強大的“飛天”和ODPS服務(wù)正式一統(tǒng)江山,并開啟了自己的新征程——登月計劃。

以“登月”來形容其難度,并不夸張。因為任務(wù)目標(biāo)——用“飛天”系統(tǒng)打通阿里巴巴和小微金服的所有事業(yè)部,讓流淌在各個業(yè)務(wù)中的數(shù)據(jù)實現(xiàn)“大一統(tǒng)”,當(dāng)時即便是Amazon和google都沒有在自家的業(yè)務(wù)集群中實現(xiàn)。

如果我們用真實世界中的方式來拆解這個項目,會發(fā)現(xiàn)它分為三個步驟:

首先,統(tǒng)一化數(shù)據(jù)平臺。“登月計劃”設(shè)計搜索、廣告、物流等多個數(shù)據(jù)源必須先實現(xiàn)系統(tǒng)化的統(tǒng)一;

其次,將其送上當(dāng)時算力領(lǐng)域的“土星五號火箭”——ODPS。

最后,各個業(yè)務(wù)組件需要在極高的相對運動速度中,被無縫銜接,實現(xiàn)平穩(wěn)著陸。

內(nèi)部的遷移固然困難,但水滴石穿,最終完成了這個壯舉。到2014年的時候,阿里云不僅承載著阿里巴巴集團自身的諸多線上業(yè)務(wù),還正式將ODPS開放,并進(jìn)軍國際,與亞馬遜AWS在海外云計算市場狹路相逢。

要馴服這頭名為商業(yè)的“猛虎”,就需要新的秘密武器了。

05

以虎為鄰:布道者的AI試煉之路

如果要給2015-2017這三年想一個關(guān)鍵詞,答案可能是AI。而云,成為阿里向產(chǎn)業(yè)輸送智能的最佳管道。它的效力,在這三年間展現(xiàn)的淋漓盡致。

站在2015年的開端,當(dāng)時已經(jīng)躋身云計算前列的阿里云,面對一個兩難的選擇:一是“飛天”要俯下身去,擁抱廣大中小微企業(yè)用戶;二是阿里云要仰起頭來,與全球云計算巨頭一起沖擊天頂技術(shù)。

但如何擁抱?天頂在哪兒?

要知道,在服務(wù)公有云和私有云用戶的過程中,阿里云的數(shù)據(jù)規(guī)則和計算能力在持續(xù)優(yōu)化。2015年1月,12306網(wǎng)站將春運高峰的75%余票查詢業(yè)務(wù)切換到了阿里云上;10月,阿里云又用不到7分鐘(377秒)的時間,完成了100TB的數(shù)據(jù)排序競賽。

阿里云“飛天”分布式計算系統(tǒng)的性能與可靠性,已經(jīng)毋庸置疑。接下來去往哪里?AI,就在這時登場了。

2015年的時候, AI能做什么、會改變什么,產(chǎn)業(yè)端一臉蒙圈。直到2016年4月,阿里云在年會上展示了實時語音識別技術(shù),并現(xiàn)場戰(zhàn)勝了世界速記大賽亞軍得主姜毅,這是阿里云人工智能ET的前身,也是阿里AI的起點。

2019年的云棲大會上,一張阿里云的技術(shù)圖譜震驚了現(xiàn)場的所有人。從AI芯片含光800,到“飛天”AI平臺,再到各種垂直智能應(yīng)用模塊,軟硬件、云端芯,想要哪里點哪里。然而當(dāng)我們將時間倒回到三年前,會發(fā)現(xiàn)當(dāng)時的阿里AI是如此稚嫩,又震驚于它成長的如此快速。

2016年8月9日的云棲大會,阿里云只推出了一款A(yù)I——人工智能ET。它的技能也遠(yuǎn)沒有現(xiàn)在豐富,模仿馬云說話、圖像識別、交通預(yù)測等,今天看來顯得有些原始,在當(dāng)時卻迅速激活了產(chǎn)業(yè)對AI的價值想象。


原來除了無人車、阿爾法狗,AI還能幫助城市治堵、農(nóng)場養(yǎng)豬、工廠升級?2016年9月,ET城市大腦落戶杭州蕭山,將道路車輛通行速度平均提升了3-5%,云服務(wù)的邊界迅速浦沿。

次年,阿里云ET更是勢不可擋,一口氣搞出了工業(yè)大腦、醫(yī)療大腦、環(huán)境大腦,將AI的觸角深入到了許多“重產(chǎn)業(yè)”。

阿里云拓展了AI的邊界,AI也改變著云服務(wù)的商業(yè)模式。非網(wǎng)絡(luò)客戶的信息化能力相對較弱,能否把各種算法打包成現(xiàn)成的模型和解決方案?軟件好用,硬件該怎么鋪,如何節(jié)省成本?小微商戶也想上云,更加微量級的按需購買能不能實現(xiàn)?

眾多新的問題襲來,專注“吃軟飯”的阿里云必須向更高的科技樹繼續(xù)攀爬了。那些等待點亮的技術(shù)名詞,有量子計算、芯片技術(shù)、嵌入式系統(tǒng)等等。

馴服商業(yè)與技術(shù)這兩頭猛虎的過程中,阿里云也逐步成為了阿里巴巴征戰(zhàn)智能時代的最大希望。

06

中場對決:勇者和神龍的“虛擬化”故事

故事講到這里,大家似乎可以發(fā)現(xiàn),“阿里云”這位主角總能在危與機之間順利逃出生天,似乎并沒有遇到什么“極限挑戰(zhàn)”——這很不英雄。

放心,“絕境”可能會遲到,但絕不會缺席。鑄造了阿里巴巴集團商業(yè)神話的“雙十一”,也是阿里云的“絕望時刻”。

作為全球僅此一家有資格挑戰(zhàn)這種極限場景的平臺,雙11之于阿里云,就像少年派所途徑的島嶼,它是如此壯闊而美麗,各種奇幻的水下生物游來逛去,靜謐的大海與夜空的繁星交相輝映,派的小船如同??吭谝粋€美好的夢里。

不過,夢里可沒有宕機。

要把危機四伏的雙十一練兵場,變成自己的高光舞臺,而不是打臉現(xiàn)場,真的有點困難。

等等!前面說好的全集團業(yè)務(wù)上云呢,怎么還遺漏了個雙11,難道阿里“登月”也成歷史懸案了?!

沒錯,天貓和淘寶兩位“阿里印鈔機”,說不上就不上。

不怪它們太“作精”,盡管2016年的時候,阿里云的底層虛擬化技術(shù),已經(jīng)可以實現(xiàn)極端場景下10%的性能損耗。但對于電商業(yè)務(wù),尤其是雙11來說,這依然是不可接受的。

10%意味著什么?就是雙11的20億預(yù)算,白白損失了2億,有這點錢捐給我(劃掉)給用戶發(fā)紅包不好嗎?

“能不能把虛擬化的損耗降到0?”——2016年雙11結(jié)束后,阿里巴巴CTO行癲在復(fù)盤會上一錘定音。

這意味著他們要解決至少三個問題:1.在虛擬層達(dá)到和物理機一樣的性能;2.滿足用戶靈活部署的需求;3.虛擬化的同時保證硬件隔離與安全。

同時具備物理機和虛擬機的雙重優(yōu)勢,這可能嗎?2017年云棲大會上,阿里云突然就召喚出了“神龍”這頭“性能怪獸”。

“變態(tài)”如阿里云,終于從馴龍走向了造龍。他們?yōu)檫@條龍搭建了全新的骨架,采用裸金屬的虛擬化,設(shè)計了專用的芯片、主板以及MOC卡,調(diào)度性能更高的虛擬化中間層,再注入配套的整套軟件,“神龍”就這樣上天了。

“奶爸們”也毫不留情,讓這條剛出生兩個月的“奶龍”正面迎上了雙11的狂風(fēng)暴雨。2017年,天貓雙11正式登上公有云,“神龍”完成了絕無僅有的一次巔峰壓力測試,實現(xiàn)了每秒32.5萬筆交易峰值,每秒25.6萬筆支付峰值。

養(yǎng)成之路就此開啟。為了讓損耗無限接近0,工程師們需要挑戰(zhàn)的是將原本虛擬化切分時所消耗的計算也塞進(jìn)MOC卡里。得,又得繼續(xù)搞新硬件了。

所以到了2018年,神龍2.0有了更強大的虛擬化算力。單挑雙11不在話下,眼看“神龍”的日子剛剛過的有點滋潤,行癲又不樂意了。

2019年春節(jié)剛過,他給“奶爸們”下了新的任務(wù)——全集團不再購進(jìn)一臺物理機,今年雙11,讓這條龍把全集團的算力撐起來。

龍生艱難,工程師們不得不對其進(jìn)行了極致改造——神龍芯片IO加速,彈性計算平臺架構(gòu),軟硬一體化的安全防護(hù),最終當(dāng)?shù)谌颀埮c我們見面時,它已經(jīng)接近于“龍生巔峰”——不僅損耗接近零,性能還比上一代提升了5倍。

不能下單、網(wǎng)絡(luò)崩潰、支付卡頓等情況,再也沒有出現(xiàn)在雙11現(xiàn)場,背后最大的支撐,就是來自技術(shù)的洪荒之力。

伴隨著“神龍”將雙11挑落馬下,至此毫不夸張的說,阿里云已經(jīng)成為阿里巴巴集團名副其實的產(chǎn)業(yè)基柱。

07

十年阿里云:英雄歸來與再出發(fā)

英雄的歷險,至此,達(dá)到了一個短暫的尾聲。

阿里云這群“技術(shù)宅”,似乎非常青睞神話所傳達(dá)的浪漫情懷,從他們?yōu)轱w天內(nèi)部模塊的命名就能看出來:阿里云的操作系統(tǒng)叫“飛天”,存儲系統(tǒng)叫“盤古”,調(diào)度系統(tǒng)是“伏羲”,而網(wǎng)絡(luò)通訊則是追日“夸父”。

而我覺得他們更像是童話故事中遠(yuǎn)方的少年,當(dāng)他們拿到地下魔鬼城中的寶物、龍怪寶庫中的金子、巨人看守的金羊毛,未來還將走向新的探險。

十年,對于阿里云來說作為“成年禮”還有些早,但鍛造它的此間少年們已經(jīng)經(jīng)歷了各種考驗,征服了雙11的洪流(但謀殺了我們的錢包),以無名英雄的身份,現(xiàn)實歸來。

從一窮二白到核心系統(tǒng)100%上云,這一刻的到來,也意味著阿里云有能力去應(yīng)對商業(yè)世界任何復(fù)雜的技術(shù)挑戰(zhàn)。

在觀看英雄電影時,我們總是青睞那些面對困境死磕到底的人設(shè),虛幻的故事盡管生動,卻始終缺少代入感。但阿里云這群少年們的奇幻漂流卻不同,因為有上億人,都在跟他們一起冒險,并且快樂歸來。這背后的時代意蘊,是更具生命力的都市神話。