應(yīng)用

技術(shù)

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點(diǎn)新聞
企業(yè)注冊個(gè)人注冊登錄

芯片的“小”問題,正在困擾大客戶

2022-02-08 15:47 半導(dǎo)體行業(yè)觀察

導(dǎo)讀:隨著計(jì)算機(jī)芯片中的微型開關(guān)已經(jīng)縮小到幾個(gè)原子的寬度,芯片的可靠性已成為運(yùn)行世界上最大網(wǎng)絡(luò)的人們的另一個(gè)擔(dān)憂。去年,亞馬遜、Facebook、Twitter 和許多其他網(wǎng)站等公司都經(jīng)歷了令人驚訝的中斷。

  想象一下,為世界上最大的數(shù)據(jù)中心提供動(dòng)力的服務(wù)器內(nèi)的數(shù)百萬個(gè)計(jì)算機(jī)芯片存在罕見的、幾乎無法檢測到的缺陷。發(fā)現(xiàn)缺陷的唯一方法是將這些芯片投入到巨大的計(jì)算問題上,這在十年前是不可想象的。

  隨著計(jì)算機(jī)芯片中的微型開關(guān)已經(jīng)縮小到幾個(gè)原子的寬度,芯片的可靠性已成為運(yùn)行世界上最大網(wǎng)絡(luò)的人們的另一個(gè)擔(dān)憂。去年,亞馬遜、Facebook、Twitter 和許多其他網(wǎng)站等公司都經(jīng)歷了令人驚訝的中斷。

  中斷有幾個(gè)原因,例如編程錯(cuò)誤和網(wǎng)絡(luò)擁塞。但人們越來越擔(dān)心,隨著云計(jì)算網(wǎng)絡(luò)變得越來越大、越來越復(fù)雜,它們在最基本的層面上仍然依賴于現(xiàn)在不太可靠、在某些情況下更難以預(yù)測的計(jì)算機(jī)芯片。

  在過去的一年里,F(xiàn)acebook 和谷歌的研究人員都發(fā)表了描述計(jì)算機(jī)硬件故障的研究,這些故障的原因不容易確定。他們認(rèn)為,問題不在于軟件,而在于不同公司制造的計(jì)算機(jī)硬件的某個(gè)地方。谷歌拒絕對其研究發(fā)表評論,而 Facebook 沒有回復(fù)對其研究發(fā)表評論的請求。

  “他們看到了這些無聲的錯(cuò)誤,基本上來自底層硬件,”專門測試計(jì)算機(jī)硬件的斯坦福大學(xué)電氣工程師 Subhasish Mitra 說。Mitra 博士說,人們越來越相信制造缺陷與這些不易被發(fā)現(xiàn)的所謂無聲錯(cuò)誤有關(guān)。

  研究人員擔(dān)心他們會(huì)發(fā)現(xiàn)罕見的缺陷,因?yàn)樗麄冋噲D解決越來越大的計(jì)算問題,這會(huì)以意想不到的方式給他們的系統(tǒng)帶來壓力。

  十多年前,運(yùn)行大型數(shù)據(jù)中心的公司開始報(bào)告系統(tǒng)性問題。2015 年,在工程出版物IEEE Spectrum中,一群在多倫多大學(xué)研究硬件可靠性的計(jì)算機(jī)科學(xué)家報(bào)告說,每年谷歌數(shù)百萬臺(tái)計(jì)算機(jī)中有多達(dá) 4% 遇到無法檢測到的錯(cuò)誤并導(dǎo)致他們意外關(guān)閉。

  在一個(gè)擁有數(shù)十億個(gè)晶體管的微處理器中——或者一個(gè)由數(shù)萬億個(gè)微型開關(guān)組成的計(jì)算機(jī)內(nèi)存板中,每個(gè)微型開關(guān)都可以存儲(chǔ)一個(gè) 1 或 0——即使是最小的錯(cuò)誤也會(huì)破壞現(xiàn)在通常每秒執(zhí)行數(shù)十億次計(jì)算的系統(tǒng)。

  在半導(dǎo)體時(shí)代初期,工程師們擔(dān)心宇宙射線偶爾會(huì)翻轉(zhuǎn)單個(gè)晶體管并改變計(jì)算結(jié)果的可能性?,F(xiàn)在他們擔(dān)心開關(guān)本身越來越不可靠。Facebook 研究人員甚至爭辯說,這些開關(guān)變得越來越容易磨損,并且計(jì)算機(jī)內(nèi)存或處理器的壽命可能比以前認(rèn)為的要短。

  越來越多的證據(jù)表明,隨著每一代新一代芯片的出現(xiàn),這個(gè)問題都在惡化。芯片制造商 Advanced Micro Devices 于 2020 年發(fā)布的一份報(bào)告發(fā)現(xiàn),當(dāng)時(shí)最先進(jìn)的計(jì)算機(jī)內(nèi)存芯片的可靠性大約比上一代低 5.5 倍。AMD 沒有回應(yīng)對該報(bào)告發(fā)表評論的請求。

  資深硬件工程師大衛(wèi)·迪策爾 (David Ditzel) 說,追蹤這些錯(cuò)誤具有挑戰(zhàn)性,他是 Esperanto Technologie公司的董事長兼創(chuàng)始人,該公司是加州山景城為人工智能應(yīng)用設(shè)計(jì)的新型處理器的制造商。他說,他的公司的新芯片剛剛上市的 1,000 個(gè)處理器由 280 億個(gè)晶體管組成。

  他將芯片比作一座橫跨整個(gè)美國表面的公寓樓,發(fā)現(xiàn)新錯(cuò)誤有點(diǎn)像在那棟樓的一間公寓里尋找一個(gè)正在運(yùn)行的水龍頭,只有當(dāng)臥室燈亮著并且公寓門打開時(shí)才會(huì)出現(xiàn)故障。

  到目前為止,計(jì)算機(jī)設(shè)計(jì)人員一直試圖通過在芯片中添加特殊電路來糾正錯(cuò)誤來處理硬件缺陷。電路自動(dòng)檢測和糾正不良數(shù)據(jù)。它曾經(jīng)被認(rèn)為是一個(gè)極其罕見的問題。但幾年前,谷歌生產(chǎn)團(tuán)隊(duì)開始報(bào)告難以診斷的錯(cuò)誤。根據(jù)他們的報(bào)告,計(jì)算錯(cuò)誤會(huì)間歇性發(fā)生并且難以重現(xiàn)。

  一組研究人員試圖追查這個(gè)問題,去年他們發(fā)表了他們的發(fā)現(xiàn)。他們得出的結(jié)論是,該公司龐大的數(shù)據(jù)中心由基于數(shù)百萬個(gè)處理器“內(nèi)核”的計(jì)算機(jī)系統(tǒng)組成,正在經(jīng)歷新的錯(cuò)誤,這可能是幾個(gè)因素的組合:接近物理極限的較小晶體管和測試不足。

  谷歌研究人員在他們的論文“不重要的核心”中指出,這個(gè)問題非常具有挑戰(zhàn)性,以至于他們已經(jīng)投入了相當(dāng)于數(shù)十年的工程時(shí)間來解決它。

  現(xiàn)代處理器芯片由數(shù)十個(gè)處理器內(nèi)核組成,計(jì)算引擎可以分解任務(wù)并并行解決它們。研究人員發(fā)現(xiàn),一小部分核心很少會(huì)產(chǎn)生不準(zhǔn)確的結(jié)果,而且僅在某些條件下才會(huì)產(chǎn)生。他們將這種行為描述為零星的。在某些情況下,只有在計(jì)算速度或溫度發(fā)生變化時(shí),內(nèi)核才會(huì)產(chǎn)生錯(cuò)誤。

  據(jù)谷歌稱,處理器設(shè)計(jì)復(fù)雜性的增加是失敗的重要原因之一。但工程師們也表示,較小的晶體管、三維芯片和僅在某些情況下會(huì)產(chǎn)生錯(cuò)誤的新設(shè)計(jì)都導(dǎo)致了這個(gè)問題。

  在去年發(fā)布的一篇類似論文中,F(xiàn)acebook 的一組研究人員指出,一些處理器會(huì)通過制造商的測試,但在投入使用時(shí)就開始出現(xiàn)故障。

  英特爾高管表示,他們熟悉谷歌和 Facebook 的研究論文,并正在與兩家公司合作開發(fā)檢測和糾正硬件錯(cuò)誤的新方法。

  英特爾數(shù)據(jù)平臺(tái)集團(tuán)副總裁 Bryan Jorgensen 表示,研究人員所做的斷言是正確的,“他們對行業(yè)提出的挑戰(zhàn)是正確的去處?!?/p>

  他說英特爾最近啟動(dòng)了一個(gè)項(xiàng)目,幫助為數(shù)據(jù)中心運(yùn)營商創(chuàng)建標(biāo)準(zhǔn)的開源軟件。該軟件將使他們能夠發(fā)現(xiàn)并糾正芯片內(nèi)置電路未檢測到的硬件錯(cuò)誤。

  去年,當(dāng)英特爾的幾位客戶悄悄地發(fā)出警告稱他們的系統(tǒng)產(chǎn)生了未檢測到的錯(cuò)誤時(shí),這一挑戰(zhàn)就凸顯出來了。

  全球最大的個(gè)人電腦制造商聯(lián)想告知其客戶,幾代英特爾至強(qiáng)處理器的設(shè)計(jì)變化意味著這些芯片可能會(huì)產(chǎn)生比早期的英特爾微處理器更多的無法糾正的錯(cuò)誤。

  英特爾沒有公開談?wù)撨@個(gè)問題,但喬根森先生承認(rèn)了這個(gè)問題,并表示它已經(jīng)得到糾正。此后,該公司改變了設(shè)計(jì)。

  計(jì)算機(jī)工程師對于如何應(yīng)對挑戰(zhàn)存在分歧。一種普遍的反應(yīng)是對新型軟件的需求,這些軟件可以主動(dòng)監(jiān)視硬件錯(cuò)誤,并使系統(tǒng)操作員能夠在硬件開始退化時(shí)將其移除。這為提供監(jiān)控?cái)?shù)據(jù)中心底層芯片健康狀況的軟件的新初創(chuàng)企業(yè)創(chuàng)造了機(jī)會(huì)。

  加利福尼亞州洛斯加托斯的一家公司 TidalScale 就是這樣的一家公司,該公司為試圖將硬件中斷最小化的公司提供專門的軟件。其首席執(zhí)行官 Gary Smerdon 表示,TidalScale 和其他公司面臨著嚴(yán)峻的挑戰(zhàn)。

  “這有點(diǎn)像在飛機(jī)還在飛行時(shí)更換發(fā)動(dòng)機(jī),”他說。

board-453758_1280.jpg