影音先锋手机AV资源站,影音先锋最新看片资源网址

【灣區(qū)物道】AI之眼，智造未來新視界—專訪英特靈達朱才志

2023-05-23 14:56 深圳市物聯(lián)網(wǎng)產(chǎn)業(yè)協(xié)會

關(guān)鍵詞：深圳市物聯(lián)網(wǎng)產(chǎn)業(yè)協(xié)會英特靈達視覺AI

導(dǎo)讀：這是『灣區(qū)物道』的第39期，本期訪談我們對話了深圳市物聯(lián)網(wǎng)產(chǎn)業(yè)協(xié)會理事單位英特靈達信息技術(shù)（深圳）有限公司CEO朱才志先生，他早在2000年開始從事計算機視覺相關(guān)的研究，是3次NIST視覺算法年度世界冠軍獲得者。本次采訪，他分享了對AI視覺技術(shù)所面臨的挑戰(zhàn)和發(fā)展趨勢的思考，希望給企業(yè)帶來更多啟發(fā)和價值。

灣區(qū)物道

深圳市物聯(lián)網(wǎng)產(chǎn)業(yè)協(xié)會的精品欄目《灣區(qū)物道》系列訪談，對話專家學者、政府官員、灣區(qū)商會協(xié)會及企業(yè)家，解讀和宣傳扶持政策；分析市場產(chǎn)業(yè)技術(shù)發(fā)展情況；助力物聯(lián)網(wǎng)生態(tài)體系建設(shè)。

AI視覺技術(shù)是將人工智能和視覺技術(shù)相結(jié)合，通過計算機視覺和深度學習等技術(shù)，對圖像和視頻數(shù)據(jù)進行處理、分析和識別。工業(yè)圖像處理（機器視覺技術(shù)）幫助生產(chǎn)企業(yè)實現(xiàn)其過程鏈的網(wǎng)絡(luò)化、自動化和數(shù)字化。這項技術(shù)通過圖像采集設(shè)備（如攝像頭和傳感器）監(jiān)控生產(chǎn)過程，并借助集成的機器視覺技術(shù)軟件處理圖像數(shù)據(jù)。

工業(yè)4.0時代，我國各行各業(yè)對采用圖像和機器視覺技術(shù)的工業(yè)自動化、智能化需求開始廣泛出現(xiàn)，國內(nèi)機器視覺行業(yè)將迎來規(guī)?；焖侔l(fā)展黃金期。

英特靈達擁有業(yè)內(nèi)領(lǐng)先的視覺AI技術(shù)和多硬件平臺適配能力,是華為機器視覺和昇騰認證合作伙伴，專注社區(qū)、園區(qū)、工地、加油站等全場景AI算法。公司堅持走自主創(chuàng)新之路,團隊算法能力雄厚,研發(fā)了多款邊、端系列智能硬件和行業(yè)解決方案并提供視覺相關(guān)多層次個性化的算法定制服務(wù),為客戶提升業(yè)務(wù)運營效率,實現(xiàn)創(chuàng)新應(yīng)用場景。

在數(shù)字化浪潮下，AI視覺技術(shù)具有怎樣的發(fā)展前景？在工業(yè)自動化領(lǐng)域發(fā)揮怎樣的價值？

這是『灣區(qū)物道』的第39期，本期訪談我們對話了深圳市物聯(lián)網(wǎng)產(chǎn)業(yè)協(xié)會理事單位英特靈達信息技術(shù)（深圳）有限公司CEO朱才志先生，他早在2000年開始從事計算機視覺相關(guān)的研究，是3次NIST視覺算法年度世界冠軍獲得者。本次采訪，他分享了對AI視覺技術(shù)所面臨的挑戰(zhàn)和發(fā)展趨勢的思考，希望給企業(yè)帶來更多啟發(fā)和價值。

朱才志英特靈達 CEO

? 英特靈達CEO，2015歸國的深圳市海外高層次人才，回國前任職日本名古屋大學副教授。

? 中科大博士畢業(yè)后，朱博士先有在微軟亞洲研究院，日本理光等知名企業(yè)的工業(yè)界經(jīng)歷，之后又有海外博士后、助理教授到副教授的完整科研經(jīng)歷，中科院深圳先進院客座教授。

? 早在2000年開始從事計算機視覺相關(guān)的研究，是3次NIST視覺算法年度世界冠軍獲得者。

? 上海市浦江人才,深圳市孔雀人才B類,寶安區(qū)政協(xié)委員, 深圳市人工智能專家委員會9位創(chuàng)始委員之一

? 中國視覺AI的首批創(chuàng)業(yè)者，曾于2014年聯(lián)合創(chuàng)立AI公司圖麟科技并任職CTO，英特靈達是他的第二次創(chuàng)業(yè)。

1、計算機視覺，得益于深度學習技術(shù)的快速發(fā)展，可以承接海量下游需求，目前都有哪些應(yīng)用場景？

計算機視覺（CV）是個很有年頭的學科，國際上有個IEEE舉辦的國際計算機視覺學術(shù)會議（ICCV），首屆于1987年在倫敦舉辦，每兩年舉辦一次，是CV領(lǐng)域的頂級會議，我10多年前參加過這個會議，當時學術(shù)界可謂百花齊放、百家爭鳴，各種流派都有，但實際上成熟的、能商業(yè)化落地的技術(shù)其實不多。今天，得益于深度學習技術(shù)的快速發(fā)展，特別是最近SAM、stable diffusion等大模型的加持，視覺AI的能力得到了極大的延展，很多經(jīng)典問題都有突破，反而學術(shù)界有點無所適從了。在商業(yè)應(yīng)用層面，我國其實走在了世界的前列，在這一波AI浪潮中，對比NLP（自然語言處理）、語音等方向，CV方向更受國內(nèi)資本與創(chuàng)業(yè)者追捧，早期的格靈深瞳、CV四小龍、云天勵飛，包括我個人回國的首次創(chuàng)業(yè)，大家都在積極探索視覺AI的商業(yè)落地新思路。安防是大家不約而同選擇的應(yīng)用場景，早期確實是少數(shù)體量大的落地方向，但很快大家意識到，相比之下，傳統(tǒng)安防廠商如?？?、大華等巨頭更有優(yōu)勢。之后，工業(yè)缺陷檢測（AOI）、醫(yī)療輔助診斷、機器人、輔助駕駛等行業(yè)也吸引了一波視覺AI公司的加入。同時，傳統(tǒng)安防也在物聯(lián)網(wǎng)化，出現(xiàn)了非常多的泛安防細分場景，包括智慧商業(yè)、智慧農(nóng)業(yè)、智慧餐飲、智慧園區(qū)、智慧小區(qū)、智慧校園、智慧油田、智慧礦山、智慧電力等。在消費類產(chǎn)品上，視覺AI廣泛與智能硬件、智能家居類產(chǎn)品相結(jié)合，產(chǎn)品包括智能門鈴、智能門鎖、嬰兒看護、打獵相機、看鳥器等，在海外很有市場。國內(nèi)運營商在大力推動視覺AI的落地，明廚亮灶、防溺水、高空拋物、煙火識別，以點帶面。盈利模式方面也有創(chuàng)新，例如參考螢石，以4G、云存儲、AI算法訂閱收費，取代早期的一次性銷售硬件的模式，成為包括運營商在內(nèi)的平臺公司的新玩法。

2、從市場規(guī)模、場景泛用、帶動作用來看，AI視覺領(lǐng)域已成為人工智能產(chǎn)業(yè)規(guī)模的主戰(zhàn)場，您認為AI 視覺算法有哪些獨特的技術(shù)優(yōu)勢？

確實，視覺在這波AI浪潮中，具有其它感知所無法比擬的作用，原因在于，視覺作為80%以上的信息入口，基本能覆蓋各行業(yè)的典型應(yīng)用場景，是聽覺、觸覺等其它感官所不能比擬的。我們今天各行各業(yè)有各種不同門類的工種，大部分的工作，是無需動嘴動耳，僅靠眼睛觀察并做出判斷后采取不同動作，就完全可以勝任了，很多工作場所甚至要求保持安靜。視覺AI本質(zhì)上是來取代人眼+人腦的部分功能的，例如今天非常成熟的人臉識別門禁系統(tǒng)，就是取代保安的人員身份核查的程序化工作，諸如此類的場景很多，例如工業(yè)生產(chǎn)流水線上，產(chǎn)品或配件的缺陷檢測，之前是人工眼睛來檢查的，容易出錯且長期勞作很傷眼睛，今天，很多這樣的工作，都完全可以用AI來取代了，且效果更好、效率更高。類似的還有銀行、保險公司票據(jù)的自動識別錄入，輔助駕駛中也用到了很多視覺處理技術(shù)，例如駕駛員疲勞檢測、車道線偏離檢測等等。最近，隨著技術(shù)的發(fā)展，一些特定場景的異常檢測，例如煙火的識別、高空拋物不良行為的檢測，都已經(jīng)逐漸開始商業(yè)化應(yīng)用了，保障人民的生命財產(chǎn)安全。

正因為視覺如此重要，早在上世紀80年代，視覺問題的研究就獨立出來成為一門學科。而這一波AI浪潮，可以說也是起源于卷積神經(jīng)網(wǎng)絡(luò)（CNN）在2012年的ImageNet視覺競賽中大放異彩，在圖像分類問題上，取得了比經(jīng)典的特征工程+支持向量機（SVM）方法壓倒性的性能優(yōu)勢。今天，我們耳熟能詳?shù)腃NN、GAN，最近很火的stable diffusion等，都是在視覺AI領(lǐng)域發(fā)展起來的技術(shù)。展望未來，我有兩點預(yù)測，一是在技術(shù)突破方面，融合多模態(tài)的大模型應(yīng)該會有一波蓬勃發(fā)展，當下，自然語言處理（NLP）領(lǐng)域在AI領(lǐng)域出現(xiàn)了新的突破，ChatGPT展示了非常強的文本知識萃取、智能涌現(xiàn)能力，似乎距離AGI（通用人工智能）更近了，這很大程度上，因為語言是人類知識的結(jié)構(gòu)化表述形式，對比視覺這種非結(jié)構(gòu)化數(shù)據(jù)，有天然的優(yōu)勢?！耙粓D勝千言”，視覺的信息量遠比文字豐富，且很多是難以用語言來概括抽象的，這意味著要訓練出視覺的ChatGPT，需要更大規(guī)模的網(wǎng)絡(luò)、數(shù)據(jù)和計算資源。這很可能以當下的技術(shù)現(xiàn)狀是無法做到的，需要從理論上所有突破。我認為，把視覺信息投影到語言空間，忽略其它難以（或無需）用語言描述的信息，以這種方式融合視覺、語言的多模態(tài)大模型，應(yīng)該有機會訓練出視覺的GPT：能以我們?nèi)祟惿瞄L的語言組織形式，來正確理解視覺數(shù)據(jù)。另一點是，在工業(yè)界，將會涌現(xiàn)出基于視覺大模型的各種行業(yè)應(yīng)用，在包括自動駕駛、工業(yè)質(zhì)檢、內(nèi)容制作、機器人等各個行業(yè)都講帶來歷史性突破。對我們珠三角企業(yè)來說，硬件供應(yīng)鏈是我們的強項，基于視覺大模型，結(jié)合某個垂直行業(yè)，做遷移學習、知識蒸餾，得到可在端側(cè)部署的模型，將有機會進一步做出killer級別的智能硬件來。

3、隨著我國配套基礎(chǔ)建設(shè)的完善，以及技術(shù)與資金的不斷積累，各行各業(yè)對采用圖像和機器視覺技術(shù)的工業(yè)自動化、智能化需求開始廣泛出現(xiàn)，您認為AI視覺如何在其中發(fā)揮重要價值？

改革開放以來，我國積極融入世界貿(mào)易體系，逐漸形成了覆蓋全行業(yè)的完備產(chǎn)業(yè)鏈條，因而被譽為“世界工廠”。同時，我們也面臨擺脫低端產(chǎn)業(yè)內(nèi)卷、提升核心高端技術(shù)貢獻率的緊迫壓力。發(fā)展機器視覺技術(shù)是促進工業(yè)自動化、數(shù)字化和智能化的關(guān)鍵途徑。目前大家熟知的AI視覺技術(shù)主要針對一般場景的RGB圖像，核心難點在于如何提升算法在不同環(huán)境條件下的魯棒性和泛化能力。然而，工業(yè)場景與一般場景相比，具有更高的穩(wěn)定性和可控性。在工業(yè)場景中，通過聯(lián)合運用主動照明、機械協(xié)作等技術(shù)手段，AI視覺技術(shù)的可靠性和敏捷度可以得到極大提升。此外，工業(yè)生產(chǎn)環(huán)境的傳感手段并不局限于RGB傳感。例如，紅外、偏光、激光雷達等傳感器在工業(yè)領(lǐng)域具有廣泛的應(yīng)用。這意味著，基于RGB圖像開發(fā)的AI視覺技術(shù)有望在超越RGB的泛圖像理解方面大顯身手。

在上述領(lǐng)域做到持續(xù)創(chuàng)新并不容易，需要對相機系統(tǒng)、多傳感器融合有深入了解，同時，能快速基于當下視覺大模型的發(fā)展，做到在垂直行業(yè)的應(yīng)用創(chuàng)新，包括在大模型的應(yīng)用層創(chuàng)新、硬件（乃至FPGA、芯片級）的創(chuàng)新等。

4、AI視覺技術(shù)的發(fā)展前景如何？面臨哪些難點與挑戰(zhàn)？

在大模型加持的通用智能時代，AI視覺技術(shù)必將迎來爆發(fā)。鑒于大模型的特性，在短期內(nèi)，AI視覺技術(shù)會呈現(xiàn)出集中化趨勢，甚至有寡頭化的危險。我們注意到，ChatGPT這樣的語言大模型的規(guī)模已經(jīng)極其龐大，囊括圖像和視頻在內(nèi)的跨模態(tài)大模型必將更加復(fù)雜，只有少數(shù)頭部公司擁有超大模型訓練和維護更新的能力。在中短期研究層面，大模型的壓縮加速技術(shù)，視頻大模型，三維視覺大模型等會得到極大發(fā)展。而在中長期研究層面，包括量子計算、脈沖計算在內(nèi)的新型計算硬件上實現(xiàn)通用AI值得關(guān)注。

在應(yīng)用層面，將來的跨模態(tài)大模型及其生態(tài)體系可以滿足絕大部分to C需求。但是，上面提及的工業(yè)自動化等領(lǐng)域，生產(chǎn)環(huán)境的數(shù)據(jù)較難獲取，且具有較強的封閉屬性，基于互聯(lián)網(wǎng)數(shù)據(jù)的大模型難以直接運用。因此，面向具體應(yīng)用領(lǐng)域的垂直模型是在to B方面取得成功的關(guān)鍵。目前，大模型的勢力格局本身完全沒有固定，而全鏈路垂直模型的開發(fā)是未被涉足的藍海，包括創(chuàng)業(yè)企業(yè)在內(nèi)的大中小玩家都有機會。不管技術(shù)浪潮如何演進，合理運用技術(shù)打造對客戶有價值的產(chǎn)品這一商業(yè)成功的本質(zhì)卻不會變化。

5、英特靈達以AI視覺算法為核心提供軟硬件一體行業(yè)解決方案，公司的核心優(yōu)勢體現(xiàn)在哪些方面？未來有哪些規(guī)劃？

英特靈達將視覺傳感和智能處理融會貫通，形成了面向任務(wù)的光學設(shè)計、數(shù)據(jù)生成、AI算法開發(fā)和ASIC化的全鏈路自動化工具，具有極高的技術(shù)壁壘和極快的市場響應(yīng)能力。目前，公司發(fā)揮在光學原理、相機系統(tǒng)和數(shù)據(jù)生成方面的獨特優(yōu)勢，致力于開發(fā)面向圖像增強和理解的垂直大模型及其知識蒸餾工具鏈，快速部署與傳感硬件高度適配的AI視覺模型，從而提升產(chǎn)品價值，滿足客服需求。英特靈達本質(zhì)上是一家有視覺人工智能核心應(yīng)用技術(shù)的公司，在當下的產(chǎn)業(yè)鏈分工中，其實是非常偏上游的，我們的發(fā)展離不開生態(tài)。未來，我們期望能找到在產(chǎn)品、銷售渠道上能高度互補的合作伙伴，英特靈達可以提供核心技術(shù)（算法、芯片、硬件設(shè)計方案等），硬件產(chǎn)品與銷售渠道都依賴伙伴來提供，我們的目標是一起做出差異化的智能產(chǎn)品，定位中高端增量市場，包括B端和C端，例如，B端我們主要是與華為行業(yè)感知部門合作，我們在華為好望商城上，提供優(yōu)質(zhì)的算法，適配華為的硬件，借助華為的銷售渠道觸達用戶；C端我個人也非?？春茫貏e是海外市場，目前主要與珠三角方案公司合作，最大化發(fā)揮制造業(yè)優(yōu)勢，為生態(tài)合作伙伴提高毛利率與市場占有率，破除珠三角無序的內(nèi)卷。

【灣區(qū)物道】AI之眼，智造未來新視界—專訪英特靈達朱才志

灣區(qū)物道

1、計算機視覺，得益于深度學習技術(shù)的快速發(fā)展，可以承接海量下游需求，目前都有哪些應(yīng)用場景？

2、從市場規(guī)模、場景泛用、帶動作用來看，AI視覺領(lǐng)域已成為人工智能產(chǎn)業(yè)規(guī)模的主戰(zhàn)場，您認為AI 視覺算法有哪些獨特的技術(shù)優(yōu)勢？

4、AI視覺技術(shù)的發(fā)展前景如何？面臨哪些難點與挑戰(zhàn)？

5、英特靈達以AI視覺算法為核心提供軟硬件一體行業(yè)解決方案，公司的核心優(yōu)勢體現(xiàn)在哪些方面？未來有哪些規(guī)劃？

相關(guān)閱讀

【灣區(qū)物道】AI之眼，智造未來新視界—專訪英特靈達朱才志

1、計算機視覺，得益于深度學習技術(shù)的快速發(fā)展，可以承接海量下游需求，目前都有哪些應(yīng)用場景？

2、從市場規(guī)模、場景泛用、帶動作用來看，AI視覺領(lǐng)域已成為人工智能產(chǎn)業(yè)規(guī)模的主戰(zhàn)場，您認為AI 視覺算法有哪些獨特的技術(shù)優(yōu)勢？

4、AI視覺技術(shù)的發(fā)展前景如何？面臨哪些難點與挑戰(zhàn)？

5、英特靈達以AI視覺算法為核心提供軟硬件一體行業(yè)解決方案，公司的核心優(yōu)勢體現(xiàn)在哪些方面？未來有哪些規(guī)劃？