應(yīng)用

技術(shù)

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點(diǎn)新聞
企業(yè)注冊個(gè)人注冊登錄

臺(tái)積電3D晶圓鍵合工藝讓Graphcore AI芯片性能大漲40%

2022-03-09 11:21 cnBeta.COM

導(dǎo)讀:得一提的是,電容器組件形成在硅片上深且窄的溝槽中(類似 DRAM)。通過將這些電荷儲(chǔ)存組件放置在靠近晶體管的位置,以實(shí)現(xiàn)更平滑的功率傳輸,從而使 IPU 內(nèi)核在較低電壓下運(yùn)行得更快。

得益于臺(tái)積電 3D 晶圓鍵合(wafer-on-wafer)技術(shù),總部位于英國的 Graphcore 能夠在不大刀闊斧改變自家專用 AI 處理器內(nèi)核的情況下,顯著提升其計(jì)算性能。Graphcore 高管稱,名為 Bow 的新型組合芯片,將被率先投放于倫敦的某個(gè)地區(qū)。

0.jpg

Bow 與舊款 Colossus MK2 芯片均使用了 TSMC N7 工藝制造(圖自:Graphcore)

在電壓低于前身的情況下,Bow 還可運(yùn)行得更快速(1.85 vs 1.35 GHz),意味著計(jì)算機(jī)迅雷神經(jīng)網(wǎng)絡(luò)的速度提升了 40%、同時(shí)能耗降低了 16% 。更棒的是,用戶無需修改軟件,即可獲得這些益處。

Graphcore 首席技術(shù)官兼聯(lián)合創(chuàng)始人 Simon Knowles 表示:“我們正在進(jìn)入一個(gè)先進(jìn)封裝的時(shí)代,通過將多個(gè)硅芯片組裝在一起,我們得以在其它方面彌補(bǔ)性能增長不斷放緩的摩爾定律”。

作為比較,英特爾 Foveros 方案選擇了將切割后的芯片連接到其它芯片或晶圓上。而臺(tái)積電的 SoIC WoW 技術(shù),則是將兩個(gè)完整的芯片晶圓鍵合到了一起。

每個(gè)芯片上的銅焊盤在晶圓對齊時(shí)匹配,再將兩個(gè)晶片疊壓到一起時(shí)讓焊盤熔斷。我們可將至視作某種冷焊,接著將頂部晶圓削薄到僅數(shù)微米,最后將鍵合晶圓切割成芯片。

1.png

BOW 實(shí)測性能增益

在 Graphcore 的案例中,其在一塊晶圓上填滿了該公司的第二代 AI 處理器,擁有 1472 個(gè)智能處理單元(IPU)和 900MB 片上緩存。

這些處理器已在商業(yè)系統(tǒng)中得到應(yīng)用,并在最近一次 MLPerf 基準(zhǔn)測試中交出了相當(dāng)不錯(cuò)的答卷。

至于另一個(gè)晶片,其擁有一套相應(yīng)的供電芯片(不包含晶體管或其它有源器件),配備了電容并通過硅通孔(TSV)來垂直連接。

值得一提的是,電容器組件形成在硅片上深且窄的溝槽中(類似 DRAM)。通過將這些電荷儲(chǔ)存組件放置在靠近晶體管的位置,以實(shí)現(xiàn)更平滑的功率傳輸,從而使 IPU 內(nèi)核在較低電壓下運(yùn)行得更快。

2.png

能效增益

若缺乏這一方案,Graphcore 就必須將 IPU 工作電壓提升到更高,才能維持 1.85 GHz 的工作頻率。此外借助電源芯片,也可助力其達(dá)成該時(shí)鐘頻率、并減少能源開銷。

Graphcore 高管補(bǔ)充道,Wafer-on-Wafer 技術(shù)使得芯片之間的鏈接密度可高于將單個(gè)芯片連接到晶圓上,但也面臨一批晶圓中難免有少數(shù)存在缺陷的問題。

通過鍵合兩片晶圓,會(huì)使得成品芯片的缺陷率翻番。為了緩解這種情況的發(fā)生,Graphcore 選擇了一套機(jī)智的應(yīng)對方法 —— 與其它 AI 處理器一樣,IPU 由許多重復(fù)、冗余的處理器內(nèi)核和其它部分組成。

公司聯(lián)合創(chuàng)始人兼首席執(zhí)行官 Nigel Toon 指出,任何缺陷都可通過內(nèi)置的保險(xiǎn)電路,讓它們與 IPU 的其余部分隔離開來。

3.png

TSMC 晶圓鍵合工藝的層級(jí)示意

有趣的是,盡管 BOW 尚未在供電芯片上堆砌晶體管,但 Simon Knowles 暗示道 —— 當(dāng)前工作只能算是邁出了第一部,該公司將在不久的將來“走得更遠(yuǎn)”。

此外該公司披露了一些計(jì)劃,比如將打造可訓(xùn)練“人腦規(guī)?!比斯ぶ悄艿某?jí)計(jì)算機(jī) —— 在神經(jīng)網(wǎng)絡(luò)中具有數(shù)百億的參數(shù)數(shù)量級(jí)。

而以英國數(shù)學(xué)家 I.J.“Jack”Good 命名的“Good 計(jì)算機(jī)”—— 由 512 個(gè)系統(tǒng) / 8192 個(gè) IPU)、大容量存儲(chǔ)、CPU 和網(wǎng)格組成 —— 將能夠處理超過 10 ExaFlops(千億億次)的浮點(diǎn)運(yùn)算。

在 4PB 內(nèi)存和每秒超 10PB 帶寬的加持下,Graphcore 預(yù)計(jì)每臺(tái)超算造價(jià)在 1.2 億美元左右,且有望于 2024 年交付使用。