應(yīng)用

技術(shù)

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點新聞
企業(yè)注冊個人注冊登錄

【灣區(qū)物道】AI之眼,智造未來新視界—專訪英特靈達朱才志

2023-05-23 14:56 深圳市物聯(lián)網(wǎng)產(chǎn)業(yè)協(xié)會

導(dǎo)讀:這是『灣區(qū)物道』的第39期,本期訪談我們對話了深圳市物聯(lián)網(wǎng)產(chǎn)業(yè)協(xié)會理事單位英特靈達信息技術(shù)(深圳)有限公司CEO朱才志先生,他早在2000年開始從事計算機視覺相關(guān)的研究,是3次NIST視覺算法年度世界冠軍獲得者。本次采訪,他分享了對AI視覺技術(shù)所面臨的挑戰(zhàn)和發(fā)展趨勢的思考,希望給企業(yè)帶來更多啟發(fā)和價值。

灣區(qū)物道

深圳市物聯(lián)網(wǎng)產(chǎn)業(yè)協(xié)會的精品欄目《灣區(qū)物道》系列訪談,對話專家學者、政府官員、灣區(qū)商會協(xié)會及企業(yè)家,解讀和宣傳扶持政策;分析市場產(chǎn)業(yè)技術(shù)發(fā)展情況;助力物聯(lián)網(wǎng)生態(tài)體系建設(shè)。


AI視覺技術(shù)是將人工智能和視覺技術(shù)相結(jié)合,通過計算機視覺和深度學習等技術(shù),對圖像和視頻數(shù)據(jù)進行處理、分析和識別。工業(yè)圖像處理(機器視覺技術(shù))幫助生產(chǎn)企業(yè)實現(xiàn)其過程鏈的網(wǎng)絡(luò)化、自動化和數(shù)字化。這項技術(shù)通過圖像采集設(shè)備(如攝像頭和傳感器)監(jiān)控生產(chǎn)過程,并借助集成的機器視覺技術(shù)軟件處理圖像數(shù)據(jù)。

工業(yè)4.0時代,我國各行各業(yè)對采用圖像和機器視覺技術(shù)的工業(yè)自動化、智能化需求開始廣泛出現(xiàn),國內(nèi)機器視覺行業(yè)將迎來規(guī)?;焖侔l(fā)展黃金期。

英特靈達擁有業(yè)內(nèi)領(lǐng)先的視覺AI技術(shù)和多硬件平臺適配能力,是華為機器視覺和昇騰認證合作伙伴,專注社區(qū)、園區(qū)、工地、加油站等全場景AI算法。公司堅持走自主創(chuàng)新之路,團隊算法能力雄厚,研發(fā)了多款邊、端系列智能硬件和行業(yè)解決方案并提供視覺相關(guān)多層次個性化的算法定制服務(wù),為客戶提升業(yè)務(wù)運營效率,實現(xiàn)創(chuàng)新應(yīng)用場景。

在數(shù)字化浪潮下,AI視覺技術(shù)具有怎樣的發(fā)展前景?在工業(yè)自動化領(lǐng)域發(fā)揮怎樣的價值?

這是『灣區(qū)物道』的第39期,本期訪談我們對話了深圳市物聯(lián)網(wǎng)產(chǎn)業(yè)協(xié)會理事單位英特靈達信息技術(shù)(深圳)有限公司CEO朱才志先生,他早在2000年開始從事計算機視覺相關(guān)的研究,是3次NIST視覺算法年度世界冠軍獲得者。本次采訪,他分享了對AI視覺技術(shù)所面臨的挑戰(zhàn)和發(fā)展趨勢的思考,希望給企業(yè)帶來更多啟發(fā)和價值。

朱才志 英特靈達 CEO

 

? 英特靈達CEO,2015歸國的深圳市海外高層次人才,回國前任職日本名古屋大學副教授。

? 中科大博士畢業(yè)后,朱博士先有在微軟亞洲研究院,日本理光等知名企業(yè)的工業(yè)界經(jīng)歷,之后又有海外博士后、助理教授到副教授的完整科研經(jīng)歷,中科院深圳先進院客座教授。

? 早在2000年開始從事計算機視覺相關(guān)的研究,是3次NIST視覺算法年度世界冠軍獲得者。

? 上海市浦江人才,深圳市孔雀人才B類,寶安區(qū)政協(xié)委員, 深圳市人工智能專家委員會9位創(chuàng)始委員之一

? 中國視覺AI的首批創(chuàng)業(yè)者,曾于2014年聯(lián)合創(chuàng)立AI公司圖麟科技并任職CTO,英特靈達是他的第二次創(chuàng)業(yè)。

 

1、計算機視覺,得益于深度學習技術(shù)的快速發(fā)展,可以承接海量下游需求,目前都有哪些應(yīng)用場景?

計算機視覺(CV)是個很有年頭的學科,國際上有個IEEE舉辦的國際計算機視覺學術(shù)會議(ICCV),首屆于1987年在倫敦舉辦,每兩年舉辦一次,是CV領(lǐng)域的頂級會議,我10多年前參加過這個會議,當時學術(shù)界可謂百花齊放、百家爭鳴,各種流派都有,但實際上成熟的、能商業(yè)化落地的技術(shù)其實不多。今天,得益于深度學習技術(shù)的快速發(fā)展,特別是最近SAM、stable diffusion等大模型的加持,視覺AI的能力得到了極大的延展,很多經(jīng)典問題都有突破,反而學術(shù)界有點無所適從了。在商業(yè)應(yīng)用層面,我國其實走在了世界的前列,在這一波AI浪潮中,對比NLP(自然語言處理)、語音等方向,CV方向更受國內(nèi)資本與創(chuàng)業(yè)者追捧,早期的格靈深瞳、CV四小龍、云天勵飛,包括我個人回國的首次創(chuàng)業(yè),大家都在積極探索視覺AI的商業(yè)落地新思路。安防是大家不約而同選擇的應(yīng)用場景,早期確實是少數(shù)體量大的落地方向,但很快大家意識到,相比之下,傳統(tǒng)安防廠商如???、大華等巨頭更有優(yōu)勢。之后,工業(yè)缺陷檢測(AOI)、醫(yī)療輔助診斷、機器人、輔助駕駛等行業(yè)也吸引了一波視覺AI公司的加入。同時,傳統(tǒng)安防也在物聯(lián)網(wǎng)化,出現(xiàn)了非常多的泛安防細分場景,包括智慧商業(yè)、智慧農(nóng)業(yè)、智慧餐飲、智慧園區(qū)、智慧小區(qū)、智慧校園、智慧油田、智慧礦山、智慧電力等。在消費類產(chǎn)品上,視覺AI廣泛與智能硬件、智能家居類產(chǎn)品相結(jié)合,產(chǎn)品包括智能門鈴、智能門鎖、嬰兒看護、打獵相機、看鳥器等,在海外很有市場。國內(nèi)運營商在大力推動視覺AI的落地,明廚亮灶、防溺水、高空拋物、煙火識別,以點帶面。盈利模式方面也有創(chuàng)新,例如參考螢石,以4G、云存儲、AI算法訂閱收費,取代早期的一次性銷售硬件的模式,成為包括運營商在內(nèi)的平臺公司的新玩法。

 

2、從市場規(guī)模、場景泛用、帶動作用來看,AI視覺領(lǐng)域已成為人工智能產(chǎn)業(yè)規(guī)模的主戰(zhàn)場,您認為AI 視覺算法有哪些獨特的技術(shù)優(yōu)勢?

確實,視覺在這波AI浪潮中,具有其它感知所無法比擬的作用,原因在于,視覺作為80%以上的信息入口,基本能覆蓋各行業(yè)的典型應(yīng)用場景,是聽覺、觸覺等其它感官所不能比擬的。我們今天各行各業(yè)有各種不同門類的工種,大部分的工作,是無需動嘴動耳,僅靠眼睛觀察并做出判斷后采取不同動作,就完全可以勝任了,很多工作場所甚至要求保持安靜。視覺AI本質(zhì)上是來取代人眼+人腦的部分功能的,例如今天非常成熟的人臉識別門禁系統(tǒng),就是取代保安的人員身份核查的程序化工作,諸如此類的場景很多,例如工業(yè)生產(chǎn)流水線上,產(chǎn)品或配件的缺陷檢測,之前是人工眼睛來檢查的,容易出錯且長期勞作很傷眼睛,今天,很多這樣的工作,都完全可以用AI來取代了,且效果更好、效率更高。類似的還有銀行、保險公司票據(jù)的自動識別錄入,輔助駕駛中也用到了很多視覺處理技術(shù),例如駕駛員疲勞檢測、車道線偏離檢測等等。最近,隨著技術(shù)的發(fā)展,一些特定場景的異常檢測,例如煙火的識別、高空拋物不良行為的檢測,都已經(jīng)逐漸開始商業(yè)化應(yīng)用了,保障人民的生命財產(chǎn)安全。

正因為視覺如此重要,早在上世紀80年代,視覺問題的研究就獨立出來成為一門學科。而這一波AI浪潮,可以說也是起源于卷積神經(jīng)網(wǎng)絡(luò)(CNN)在2012年的ImageNet視覺競賽中大放異彩,在圖像分類問題上,取得了比經(jīng)典的特征工程+支持向量機(SVM)方法壓倒性的性能優(yōu)勢。今天,我們耳熟能詳?shù)腃NN、GAN,最近很火的stable diffusion等,都是在視覺AI領(lǐng)域發(fā)展起來的技術(shù)。展望未來,我有兩點預(yù)測,一是在技術(shù)突破方面,融合多模態(tài)的大模型應(yīng)該會有一波蓬勃發(fā)展,當下,自然語言處理(NLP)領(lǐng)域在AI領(lǐng)域出現(xiàn)了新的突破,ChatGPT展示了非常強的文本知識萃取、智能涌現(xiàn)能力,似乎距離AGI(通用人工智能)更近了,這很大程度上,因為語言是人類知識的結(jié)構(gòu)化表述形式,對比視覺這種非結(jié)構(gòu)化數(shù)據(jù),有天然的優(yōu)勢?!耙粓D勝千言”,視覺的信息量遠比文字豐富,且很多是難以用語言來概括抽象的,這意味著要訓練出視覺的ChatGPT,需要更大規(guī)模的網(wǎng)絡(luò)、數(shù)據(jù)和計算資源。這很可能以當下的技術(shù)現(xiàn)狀是無法做到的,需要從理論上所有突破。我認為,把視覺信息投影到語言空間,忽略其它難以(或無需)用語言描述的信息,以這種方式融合視覺、語言的多模態(tài)大模型,應(yīng)該有機會訓練出視覺的GPT:能以我們?nèi)祟惿瞄L的語言組織形式,來正確理解視覺數(shù)據(jù)。另一點是,在工業(yè)界,將會涌現(xiàn)出基于視覺大模型的各種行業(yè)應(yīng)用,在包括自動駕駛、工業(yè)質(zhì)檢、內(nèi)容制作、機器人等各個行業(yè)都講帶來歷史性突破。對我們珠三角企業(yè)來說,硬件供應(yīng)鏈是我們的強項,基于視覺大模型,結(jié)合某個垂直行業(yè),做遷移學習、知識蒸餾,得到可在端側(cè)部署的模型,將有機會進一步做出killer級別的智能硬件來。

 

3、隨著我國配套基礎(chǔ)建設(shè)的完善,以及技術(shù)與資金的不斷積累,各行各業(yè)對采用圖像和機器視覺技術(shù)的工業(yè)自動化、智能化需求開始廣泛出現(xiàn),您認為AI視覺如何在其中發(fā)揮重要價值?

改革開放以來,我國積極融入世界貿(mào)易體系,逐漸形成了覆蓋全行業(yè)的完備產(chǎn)業(yè)鏈條,因而被譽為“世界工廠”。同時,我們也面臨擺脫低端產(chǎn)業(yè)內(nèi)卷、提升核心高端技術(shù)貢獻率的緊迫壓力。發(fā)展機器視覺技術(shù)是促進工業(yè)自動化、數(shù)字化和智能化的關(guān)鍵途徑。目前大家熟知的AI視覺技術(shù)主要針對一般場景的RGB圖像,核心難點在于如何提升算法在不同環(huán)境條件下的魯棒性和泛化能力。然而,工業(yè)場景與一般場景相比,具有更高的穩(wěn)定性和可控性。在工業(yè)場景中,通過聯(lián)合運用主動照明、機械協(xié)作等技術(shù)手段,AI視覺技術(shù)的可靠性和敏捷度可以得到極大提升。此外,工業(yè)生產(chǎn)環(huán)境的傳感手段并不局限于RGB傳感。例如,紅外、偏光、激光雷達等傳感器在工業(yè)領(lǐng)域具有廣泛的應(yīng)用。這意味著,基于RGB圖像開發(fā)的AI視覺技術(shù)有望在超越RGB的泛圖像理解方面大顯身手。

在上述領(lǐng)域做到持續(xù)創(chuàng)新并不容易,需要對相機系統(tǒng)、多傳感器融合有深入了解,同時,能快速基于當下視覺大模型的發(fā)展,做到在垂直行業(yè)的應(yīng)用創(chuàng)新,包括在大模型的應(yīng)用層創(chuàng)新、硬件(乃至FPGA、芯片級)的創(chuàng)新等。

 

4、AI視覺技術(shù)的發(fā)展前景如何?面臨哪些難點與挑戰(zhàn)?

在大模型加持的通用智能時代,AI視覺技術(shù)必將迎來爆發(fā)。鑒于大模型的特性,在短期內(nèi),AI視覺技術(shù)會呈現(xiàn)出集中化趨勢,甚至有寡頭化的危險。我們注意到,ChatGPT這樣的語言大模型的規(guī)模已經(jīng)極其龐大,囊括圖像和視頻在內(nèi)的跨模態(tài)大模型必將更加復(fù)雜,只有少數(shù)頭部公司擁有超大模型訓練和維護更新的能力。在中短期研究層面,大模型的壓縮加速技術(shù),視頻大模型,三維視覺大模型等會得到極大發(fā)展。而在中長期研究層面,包括量子計算、脈沖計算在內(nèi)的新型計算硬件上實現(xiàn)通用AI值得關(guān)注。

在應(yīng)用層面,將來的跨模態(tài)大模型及其生態(tài)體系可以滿足絕大部分to C需求。但是,上面提及的工業(yè)自動化等領(lǐng)域,生產(chǎn)環(huán)境的數(shù)據(jù)較難獲取,且具有較強的封閉屬性,基于互聯(lián)網(wǎng)數(shù)據(jù)的大模型難以直接運用。因此,面向具體應(yīng)用領(lǐng)域的垂直模型是在to B方面取得成功的關(guān)鍵。目前,大模型的勢力格局本身完全沒有固定,而全鏈路垂直模型的開發(fā)是未被涉足的藍海,包括創(chuàng)業(yè)企業(yè)在內(nèi)的大中小玩家都有機會。不管技術(shù)浪潮如何演進,合理運用技術(shù)打造對客戶有價值的產(chǎn)品這一商業(yè)成功的本質(zhì)卻不會變化。

 

5、英特靈達以AI視覺算法為核心提供軟硬件一體行業(yè)解決方案,公司的核心優(yōu)勢體現(xiàn)在哪些方面?未來有哪些規(guī)劃?

英特靈達將視覺傳感和智能處理融會貫通,形成了面向任務(wù)的光學設(shè)計、數(shù)據(jù)生成、AI算法開發(fā)和ASIC化的全鏈路自動化工具,具有極高的技術(shù)壁壘和極快的市場響應(yīng)能力。目前,公司發(fā)揮在光學原理、相機系統(tǒng)和數(shù)據(jù)生成方面的獨特優(yōu)勢,致力于開發(fā)面向圖像增強和理解的垂直大模型及其知識蒸餾工具鏈,快速部署與傳感硬件高度適配的AI視覺模型,從而提升產(chǎn)品價值,滿足客服需求。英特靈達本質(zhì)上是一家有視覺人工智能核心應(yīng)用技術(shù)的公司,在當下的產(chǎn)業(yè)鏈分工中,其實是非常偏上游的,我們的發(fā)展離不開生態(tài)。未來,我們期望能找到在產(chǎn)品、銷售渠道上能高度互補的合作伙伴,英特靈達可以提供核心技術(shù)(算法、芯片、硬件設(shè)計方案等),硬件產(chǎn)品與銷售渠道都依賴伙伴來提供,我們的目標是一起做出差異化的智能產(chǎn)品,定位中高端增量市場,包括B端和C端,例如,B端我們主要是與華為行業(yè)感知部門合作,我們在華為好望商城上,提供優(yōu)質(zhì)的算法,適配華為的硬件,借助華為的銷售渠道觸達用戶;C端我個人也非??春茫貏e是海外市場,目前主要與珠三角方案公司合作,最大化發(fā)揮制造業(yè)優(yōu)勢,為生態(tài)合作伙伴提高毛利率與市場占有率,破除珠三角無序的內(nèi)卷。