三级中文字幕在线有码,老熟女久久免费视频

英國(guó)AI芯片獨(dú)角獸勇闖中國(guó)！搭上阿里百度，揭秘硬核技術(shù)

2020-07-01 08:45 網(wǎng)易號(hào)

導(dǎo)讀：今年疫情拖累全球許多行業(yè)的發(fā)展，但AI領(lǐng)域非但不會(huì)走向低潮，反而會(huì)有很大發(fā)展，尤其是自然語(yǔ)言處理類算法的發(fā)展會(huì)催生大量新應(yīng)用。

芯東西6月28日?qǐng)?bào)道，2020年的突發(fā)事件撥亂了太多產(chǎn)業(yè)的陣腳，AI芯片產(chǎn)業(yè)也似乎熱度漸熄。一家英國(guó)AI芯片創(chuàng)企卻在這一時(shí)期，穩(wěn)穩(wěn)地切入國(guó)內(nèi)科技巨頭阿里和百度的生態(tài)圈。

就在今年5月，成立剛滿四年的英國(guó)初創(chuàng)公司Graphcore分別公布和阿里巴巴、百度合作的新動(dòng)向。阿里宣布Graphcore支持ODLA的接口標(biāo)準(zhǔn)，百度宣布Graphcore成為飛槳硬件生態(tài)圈的創(chuàng)始成員之一。

同月，在英國(guó)Intelligence Health峰會(huì)上，微軟機(jī)器學(xué)習(xí)科學(xué)家分享用Graphcore的IPU芯片訓(xùn)練微軟COVID-19影像分析算法CXR，能夠在30分鐘之內(nèi)完成在NVIDIA GPU上需要5個(gè)小時(shí)的訓(xùn)練工作量。

▲300W功耗情況下，IPU（左）以2000 img/s的平均速率進(jìn)行訓(xùn)練，NVIDIA V100平均速率約為166 img/s，速度相差10倍以上

也是在這個(gè)月，英偉達(dá)（NVIDIA）為AI和數(shù)據(jù)科學(xué)打造的最強(qiáng)GPU A100橫空出世，給布局云端AI芯片市場(chǎng)的其他公司帶來(lái)新的壓力。

不過(guò)Graphcore顯得相對(duì)淡定。Graphcore高級(jí)副總裁兼中國(guó)區(qū)總經(jīng)理盧濤相信，即便是Graphcore第一代IPU產(chǎn)品也不會(huì)輸于A100，今年他們還將發(fā)布下一代7nm處理器。

Graphcore的自信并非空穴來(lái)風(fēng)，憑借創(chuàng)新芯片架構(gòu)IPU，這家成立剛滿四年的英國(guó)初創(chuàng)公司，不僅有DeepMind聯(lián)合創(chuàng)始人Demis Hassabis、劍橋大學(xué)教授兼Uber首席科學(xué)家Zoubin Ghahramani、加州大學(xué)伯克利教授Pieter Abbeel、OpenAI多位聯(lián)合創(chuàng)始人等多位AI大牛為其背書(shū)，還吸引到微軟、博世、戴爾、三星、寶馬等巨頭注資。

這樣一個(gè)在AI芯片界猛刷存在感的明星創(chuàng)企，背后有著怎樣的底氣？

近日，Graphcore高級(jí)副總裁兼中國(guó)區(qū)總經(jīng)理盧濤、 Graphcore銷售總監(jiān)朱江第一次在中國(guó)詳盡地介紹了Graphcore的核心芯片架構(gòu)及產(chǎn)品、配套軟件工具鏈，并分享了其芯片在五類垂直場(chǎng)景的應(yīng)用實(shí)例及性能表現(xiàn)。

01英國(guó)小鎮(zhèn)里誕生的AI芯片獨(dú)角獸

2012年1月，雪后的英國(guó)小鎮(zhèn)巴斯，Nigel Toon與Simon Knowles正在討論一個(gè)改變AI芯片架構(gòu)的創(chuàng)新設(shè)想。

▲Graphcore CEO Nigel Toon和CTO Simon Knowles

經(jīng)過(guò)四年模擬了數(shù)百種芯片布局的計(jì)算機(jī)測(cè)試方法，兩人于2016年6月在英國(guó)布里斯托成立AI芯片公司Graphcore，此后繼續(xù)處于神秘的研發(fā)狀態(tài)。

知名資本伸出的橄欖枝，使得這家創(chuàng)企始終處于聚光燈下，寶馬、博世、戴爾、微軟、三星等巨頭紛紛參與投資，至今Graphcore累計(jì)融資超過(guò)4.5億美元，整體估值約為19.5億美元。

不僅如此，數(shù)位AI大牛對(duì)其IPU芯片架構(gòu)贊譽(yù)有加。

英國(guó)半導(dǎo)體之父、Arm聯(lián)合創(chuàng)始人Hermann爵士曾評(píng)價(jià)說(shuō)：“在計(jì)算機(jī)歷史上只發(fā)生過(guò)三次革命，一次是70年代的CPU，第二次是90年代的GPU，而Graphcore就是第三次革命。”

AI教父Geoff Hinton教授也說(shuō)過(guò)：“我們需要不同類型的計(jì)算機(jī)來(lái)處理一些新的機(jī)器學(xué)習(xí)的系統(tǒng)。”他指出IPU就是這樣一個(gè)系統(tǒng)。

到2019年11月，Graphcore潛心打造的IPU產(chǎn)品官宣量產(chǎn)，隨后與微軟、百度、Qwant、Citadel、帝國(guó)理工學(xué)院、牛津大學(xué)等多個(gè)合作伙伴、云計(jì)算廠商、研究實(shí)驗(yàn)室以及高校等展開(kāi)了相關(guān)合作。

如今，Graphcore所做的產(chǎn)品包括了硬件、軟件和IPU的系統(tǒng)解決方案。

IPU是Graphcore專為機(jī)器智能設(shè)計(jì)的創(chuàng)新處理器架構(gòu)，宣稱在現(xiàn)有及下一代模型上，性能遠(yuǎn)超NVIDIA V100 GPU。

例如它能將自然語(yǔ)言處理（NLP）處理速度可提升20%-50%，為圖像分類帶來(lái)6倍的吞吐量而且是更低的時(shí)延，在一些金融模型方面訓(xùn)練速度能夠提高26倍以上。

目前IPU已實(shí)現(xiàn)量產(chǎn)，通過(guò)訪問(wèn)微軟Azure等云計(jì)算平臺(tái)，或者購(gòu)買戴爾服務(wù)器等產(chǎn)品，均可獲取IPU資源。在國(guó)內(nèi)，Graphcore也正在與金山云合作，擬上線一個(gè)針對(duì)中國(guó)開(kāi)發(fā)者和創(chuàng)新者的云業(yè)務(wù)。

除了芯片產(chǎn)品走向落地，在過(guò)去6-12個(gè)月，Graphcore在全球版圖快速鋪開(kāi)，迄今有全球員工450人，分布在北京、上海、深圳、臺(tái)北、布里斯托、倫敦、劍橋、挪威、奧斯陸、西雅圖、帕拉奧圖、紐約、奧斯汀、東京、首爾等地。

02以計(jì)算圖為表征的創(chuàng)新AI芯片架構(gòu)

Graphcore的自研芯片架構(gòu)誕生的背景，源于過(guò)去幾年AI算法模型規(guī)模呈指數(shù)級(jí)增長(zhǎng)，需要更適宜的全新處理器架構(gòu)。

相較傳統(tǒng)科學(xué)計(jì)算或高性能計(jì)算（HPC），AI或者說(shuō)機(jī)器智能有一些特性，包括大規(guī)模并行就散、稀疏數(shù)據(jù)結(jié)構(gòu)、低精度計(jì)算，以及在訓(xùn)練推理過(guò)程中的數(shù)據(jù)參數(shù)復(fù)用、靜態(tài)圖結(jié)構(gòu)。

Graphcore IPU即是針對(duì)計(jì)算圖的處理設(shè)計(jì)而成，相比傳統(tǒng)智能處理器，IPU有三個(gè)核心區(qū)別：采用MIMD架構(gòu)、所有模型在片內(nèi)處理、可解決大規(guī)模并行計(jì)算處理器核之間的通信效率。

具體而言，IPU采用大規(guī)模并行MIMD的處理核，拋棄了外部DDR，在片內(nèi)做到300MB的大規(guī)模分布式片上SRAM，以打破內(nèi)存帶寬對(duì)整體性能構(gòu)成的瓶頸。

相較CPU的DDR2子系統(tǒng)或是GPU的GDDR、HBM來(lái)說(shuō)，IPU這一設(shè)計(jì)可將性能提升10-320倍。與訪問(wèn)外存相比較，時(shí)延基本為1%，可忽略不計(jì)。

當(dāng)前已量產(chǎn)的IPU處理器為GC2，擁有256億個(gè)晶體管，在120瓦功耗下，混合精度算力可達(dá)125TFLOPS。

GC2采用臺(tái)積電16nm工藝，片內(nèi)包含1216個(gè)獨(dú)立的IPU處理器核心（Tile），整個(gè)GC2包含7296個(gè)線程，支持7296個(gè)程序并行運(yùn)行。其內(nèi)存帶寬為45TB/s、片上交換是8TB/s，片間IPU-Links為2.5Tbps。

為了解決并行硬件的高效編程問(wèn)題，IPU通過(guò)硬件支持BSP協(xié)議，并通過(guò)BSP協(xié)議把整個(gè)計(jì)算邏輯分成了計(jì)算、同步、交換。

這對(duì)軟件工程師和開(kāi)發(fā)者來(lái)說(shuō)非常易于編程，因?yàn)椴槐靥幚韑ocks這個(gè)概念，也不必管任務(wù)具體在哪個(gè)核上運(yùn)行。

目前IPU是世界上目前第一款BSP處理器，BSP技術(shù)在谷歌、Facebook、百度之類的大規(guī)模數(shù)據(jù)中心均有使用。

盧濤介紹說(shuō)，IPU重點(diǎn)面向云端訓(xùn)練以及對(duì)精度和延時(shí)要求高的推理場(chǎng)景，還有一些訓(xùn)練和推理混合的場(chǎng)景。

在精度方面，IPU當(dāng)前不支持整數(shù)int8，主要支持FP16、FP32以及混合精度。

當(dāng)前應(yīng)用較大的主流計(jì)算機(jī)視覺(jué)類模型以int8為主，而自然語(yǔ)言處理推理以FP16、FP32為主流數(shù)據(jù)格式，IPU使用FP16精度在ResNeXt、EfficientNet等新興視覺(jué)模型中性能功耗比同樣具有優(yōu)勢(shì)。

未來(lái)，Graphcore的推進(jìn)策略還是訓(xùn)練和推理并行，但會(huì)更聚焦于一些對(duì)精度和時(shí)延要求更低、對(duì)吞吐量要求更高的場(chǎng)景。另外，他們也看到在推薦算法等應(yīng)用出現(xiàn)一些希望同時(shí)實(shí)現(xiàn)訓(xùn)練和推理的需求。

03軟件支持容器化部署，上線開(kāi)發(fā)者社區(qū)

硬件芯片架構(gòu)是基礎(chǔ)，而軟件則是提升用戶體驗(yàn)的關(guān)鍵利器。

對(duì)于AI芯片來(lái)說(shuō)，芯片研發(fā)出來(lái)只是第一部分，要能落地到產(chǎn)業(yè)中，還需展現(xiàn)出色的可移植性、可開(kāi)發(fā)性、可部署性，能提供完善的工具鏈和豐富的軟件庫(kù)，可實(shí)現(xiàn)與主流機(jī)器學(xué)習(xí)框架無(wú)縫銜接，而整個(gè)鏈條全部打通需要非常大的投入。

今年5月26日，全球知名科技分析機(jī)構(gòu)Moor Insights & Strategy曾發(fā)表了一篇研究論文《Graphcore的軟件棧：Build To Scale》，其中寫道：“Graphcore是我們目前已知的唯一一家將產(chǎn)品擴(kuò)展到囊括如此龐大的部署軟件和基礎(chǔ)架構(gòu)套件的初創(chuàng)公司。”

盧濤認(rèn)為，對(duì)于AI芯片來(lái)說(shuō)，真正商業(yè)化的衡量標(biāo)準(zhǔn)在于三點(diǎn)：是否有平臺(tái)化軟件的支持、是否有大規(guī)模商用部署軟件的支持、是否能實(shí)現(xiàn)產(chǎn)品化的部署。

對(duì)此，Graphcore的Poplar SDK提供了完整的軟件堆棧來(lái)執(zhí)行其計(jì)算圖工具鏈，有四個(gè)主要特性：

（1）開(kāi)放且可擴(kuò)展的Poplar庫(kù)：目前已提供750個(gè)高性能計(jì)算元素的50多種優(yōu)化功能，修改和編寫自定義庫(kù)。

（2）直接部署：支持容器化部署，可快速啟動(dòng)并且運(yùn)行。標(biāo)準(zhǔn)生態(tài)方面，可支持Docker、Kubernetes，還有像微軟的Hyper-v等虛擬化的技術(shù)和安全技術(shù)。

（3）機(jī)器學(xué)習(xí)框架支持：支持TensorFlow 1、TensorFlow 2、ONNX和PyTorch等標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)框架，很快也將支持百度飛槳。

（4）標(biāo)準(zhǔn)生態(tài)支持：通過(guò)微軟Azure部署、Kubernetes編排、Docker容器以及Hyper-V虛擬化和安全性，已生產(chǎn)就緒。

目前Poplar SDK支持最主要的三個(gè)Linux操作系統(tǒng)發(fā)行版本：ubuntu、RedHat Enterprise Linux、CentOS。

ubuntu是迄今在AWS上最流行的一個(gè)操作系統(tǒng)，RedHat Enterprise Linux對(duì)一些企業(yè)級(jí)用戶做私有云非常重要，而CentOS在中國(guó)互聯(lián)網(wǎng)公司中應(yīng)用廣泛。

今年5月，Graphcore推出分析工具PopVision Graph Analyser，并上線Poplar開(kāi)發(fā)者文檔和社區(qū)。

使用IPU編程時(shí)，可借助PopVision可視化圖形展示工具來(lái)分析軟件運(yùn)行的情況、效率調(diào)試調(diào)優(yōu)等。

Poplar開(kāi)發(fā)者文檔和社區(qū)中提供了大量的Poplar user guide和文檔。開(kāi)發(fā)者可通過(guò)www.graphcore.ai/developer訪問(wèn)。

此外，Graphcore在Stack Overflow上也有針對(duì)IPU開(kāi)發(fā)者的知識(shí)門戶網(wǎng)站，并在知乎上開(kāi)辟了新的創(chuàng)新者社區(qū)，未來(lái)通過(guò)知乎將更多深度文章呈現(xiàn)給開(kāi)發(fā)者和用戶。

據(jù)盧濤介紹，有些國(guó)內(nèi)用戶反饋，認(rèn)為Poplar的應(yīng)用性優(yōu)于CUDA，執(zhí)行同樣的任務(wù)，在Poplar上開(kāi)發(fā)速度更快。

04案例源代碼可下載，秀五大垂直應(yīng)用

當(dāng)前基于IPU的應(yīng)用已覆蓋了機(jī)器學(xué)習(xí)的各個(gè)應(yīng)用領(lǐng)域，包括自然語(yǔ)言處理（NLP）算法、圖像/視頻處理、時(shí)序分析、推薦/排名以及概率模型。

這些應(yīng)用案例和模型已在TensorFlow、ONNX和Graphcore PopARTTM上可用，所有源代碼均可在Github上下載。

相較NVIDIA V100，IPU在自然語(yǔ)言處理、概率算法、計(jì)算機(jī)視覺(jué)算法等應(yīng)用均展現(xiàn)出性能優(yōu)勢(shì)。

▲對(duì)比GPU，IPU在運(yùn)行時(shí)展現(xiàn)的性能優(yōu)勢(shì)

例如訓(xùn)練BERT，在NVLink-enabled的平臺(tái)上大約要50多小時(shí)才能做到一定精度，而在基于IPU的戴爾DSS-8440服務(wù)器上只需36.3小時(shí)，速度提高25%。

做BERT推理時(shí)，同一時(shí)延，IPU吞吐量比V100高一倍；在訓(xùn)練MCMC時(shí)，IPU可將性能提升至V100的26倍。

運(yùn)行ResNeXt推理時(shí)，IPU可實(shí)現(xiàn)6倍的吞吐量和1/22的延時(shí)。一些搜索引擎公司、醫(yī)療影像公司用戶已通過(guò)IPU來(lái)使用ResNeXt的服務(wù)。

Graphcore銷售總監(jiān)朱江分享了IPU在金融、醫(yī)療、電信、機(jī)器人、云與互聯(lián)網(wǎng)等五類垂直領(lǐng)域的應(yīng)用實(shí)例。

1、金融：LSTM推理性能提升260倍

IPU在算法交易、投資管理、風(fēng)險(xiǎn)管理及詐騙識(shí)別領(lǐng)域等主要金融領(lǐng)域均表現(xiàn)出顯著優(yōu)勢(shì)。

例如在推理方面，延遲性能不變時(shí)，IPU可將長(zhǎng)短期記憶（LSTM）模型吞吐量提升260倍，對(duì)于不可向量化模型亦能取得非常好的效果。

在訓(xùn)練方面，IPU可將MCMC概率模型的采樣速度提高26倍,可進(jìn)行阿爾法預(yù)測(cè)和期權(quán)定價(jià)，并能將強(qiáng)化學(xué)習(xí)的訓(xùn)練速度提升13倍。

采用多層感知器（MLP）預(yù)測(cè)銷售結(jié)果時(shí)，相較Batch Size為512K的GPU，IPU吞吐量可提升5.9倍以上。

2、醫(yī)療和生命科學(xué)：影像分析能效提升4倍

醫(yī)療和生命科學(xué)包括新藥研發(fā)、醫(yī)學(xué)圖像、醫(yī)學(xué)研究、精準(zhǔn)醫(yī)療等領(lǐng)域，涉及大量復(fù)雜的實(shí)驗(yàn)，加速計(jì)算過(guò)程對(duì)一些醫(yī)學(xué)成果的更快產(chǎn)出至為重要。

微軟用ResNeXt模型做顱內(nèi)出血醫(yī)學(xué)影像分析時(shí)，使用IPU較V100 GPU速度提高2倍，而功耗僅為V100的一半。

3、電信：加速5G創(chuàng)新應(yīng)用

在電信領(lǐng)域，智慧網(wǎng)絡(luò)、5G創(chuàng)新、預(yù)測(cè)性維護(hù)和客戶體驗(yàn)方面均可應(yīng)用IPU帶來(lái)加速體驗(yàn)。

例如，機(jī)器智能可幫助分析無(wú)線數(shù)據(jù)的一些變化，運(yùn)行LSTM模型進(jìn)行網(wǎng)絡(luò)流量矩陣預(yù)測(cè)時(shí)，采用IPU性能比GPU提升超過(guò)260倍。

網(wǎng)絡(luò)切片和資源管理是5G中的一個(gè)特色，需要大量學(xué)習(xí)沒(méi)被標(biāo)記過(guò)的數(shù)據(jù)，需要應(yīng)用強(qiáng)化學(xué)習(xí)模型，而在IPU上運(yùn)行強(qiáng)化學(xué)習(xí)，訓(xùn)練吞吐量相較GPU最多可提高13倍。

4、機(jī)器人：解決經(jīng)典光束法平差加速問(wèn)題

在機(jī)器人領(lǐng)域，倫敦帝國(guó)理工學(xué)院Andrew Davison教授帶領(lǐng)的機(jī)器人視覺(jué)小組在今年3月發(fā)表的論文中采用IPU來(lái)開(kāi)發(fā)新算法，用以優(yōu)化空間人工智能的效率。

相較使用Ceres中央處理器庫(kù)的1450毫秒，IPU處理器僅在40毫秒內(nèi)就解決了真正的光束法平差（Bundle Adjustment）這一經(jīng)典的計(jì)算機(jī)視覺(jué)問(wèn)題。

5、云與互聯(lián)網(wǎng)：通過(guò)微軟Azure開(kāi)放

云與互聯(lián)網(wǎng)是Graphcore早期及現(xiàn)在一直主要推廣的一個(gè)重要領(lǐng)域。

當(dāng)前微軟在Azure公有云上已面向全球客戶開(kāi)放IPU公有云服務(wù)。此外，微軟在一些自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)應(yīng)用中已使用IPU實(shí)現(xiàn)加速。

另外歐洲搜索引擎公司也使用IPU進(jìn)行ResNeXt模型推理，做了一個(gè)搜圖識(shí)別應(yīng)用，將性能提升3.5倍以上。

05結(jié)語(yǔ)：即將接受中國(guó)市場(chǎng)的檢驗(yàn)

今年疫情拖累全球許多行業(yè)的發(fā)展，但在盧濤看來(lái)，AI領(lǐng)域非但不會(huì)走向低潮，反而會(huì)有很大發(fā)展，尤其是自然語(yǔ)言處理類算法的發(fā)展會(huì)催生大量新應(yīng)用。

疫情在全球范圍內(nèi)推動(dòng)了數(shù)字化的加速，亦會(huì)推動(dòng)數(shù)據(jù)中心等算力基礎(chǔ)設(shè)施的建設(shè)進(jìn)程。

盧濤認(rèn)為，2020年是對(duì)AI芯片非常關(guān)鍵的一年，如果企業(yè)拿不出AI芯片產(chǎn)品，或者對(duì)軟件不夠重視，對(duì)后續(xù)持續(xù)化投入或?qū)⑹呛艽蟮奶魬?zhàn)。

從Graphcore與阿里、百度的合作來(lái)看，該公司今年在中國(guó)市場(chǎng)的推進(jìn)明顯提速。

盡管Graphcore在中國(guó)市場(chǎng)的整體啟動(dòng)較北美地區(qū)晚了一年左右，但盧濤期望，中國(guó)市場(chǎng)能在Graphcore全球市場(chǎng)占比達(dá)40%-50%。

此外，Graphcore也希望針對(duì)中國(guó)市場(chǎng)的需求，做產(chǎn)品的定制化演進(jìn)。

據(jù)盧濤介紹，Graphcore有兩支技術(shù)團(tuán)隊(duì)，一個(gè)是以定制開(kāi)發(fā)為主的工程技術(shù)團(tuán)隊(duì)，另一個(gè)是以對(duì)用戶的技術(shù)服務(wù)為主的現(xiàn)場(chǎng)應(yīng)用團(tuán)隊(duì)。

其中工程技術(shù)團(tuán)隊(duì)承擔(dān)兩個(gè)方面的工作：一是根據(jù)中國(guó)本地AI應(yīng)用的特點(diǎn)及需求，將一些AI算法模型在IPU上實(shí)現(xiàn)落地；二是根據(jù)中國(guó)本地用戶對(duì)于AI的穩(wěn)定性學(xué)習(xí)框架平臺(tái)軟件方面的需求，做功能性的一些開(kāi)發(fā)加強(qiáng)的工作。

從上述種種應(yīng)用案例來(lái)看，Graphcore已初步證明其創(chuàng)新IPU架構(gòu)在多類AI應(yīng)用上的出色訓(xùn)練和推理表現(xiàn)。而Graphcore還會(huì)繼續(xù)“練內(nèi)功、打基礎(chǔ)”，攻克技術(shù)難題，加固技術(shù)實(shí)力。

不過(guò)芯片和相關(guān)軟件工具的落地只是第一步，真正商業(yè)化戰(zhàn)果如何，還要看市場(chǎng)給出的回音。

英國(guó)AI芯片獨(dú)角獸勇闖中國(guó)！搭上阿里百度，揭秘硬核技術(shù)

相關(guān)閱讀

英國(guó)AI芯片獨(dú)角獸勇闖中國(guó)！搭上阿里百度，揭秘硬核技術(shù)