應(yīng)用

技術(shù)

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點新聞
企業(yè)注冊個人注冊登錄

帶“眼睛”的ChatGPT應(yīng)用來了!150億參數(shù)多模態(tài)大模型加持,讀圖聊天樣樣全能

2023-03-10 13:38 鎂客網(wǎng)

導(dǎo)讀:國產(chǎn)ChatGPT應(yīng)用,彎道超車。

國產(chǎn)ChatGPT應(yīng)用,彎道超車。

在許多人的印象里,ChatGPT是個無所不能的“怪物”。

它可以寫詩,可以編代碼,甚至可以直接生成長篇論文……此外,ChatGPT還極富情商、表現(xiàn)欲十足,只需數(shù)輪對話,就足以征服眾人。

但ChatGPT真的是無所不能的嗎?

作為聊天機(jī)器人,ChatGPT擁有出色的語言理解能力和文本處理能力,但受制于訓(xùn)練模型,ChatGPT并不支持圖片對話。試想一下,在平日與好友進(jìn)行聊天時,如果無法發(fā)送圖片,那自然會失去部分樂趣。

而在國內(nèi),有這么一家AI研發(fā)團(tuán)隊,他們推出的“元乘象Chatlmg”應(yīng)用可以準(zhǔn)確識別圖片并能與用戶進(jìn)行聊天,就好比給ChatGPT加上一雙“眼睛”,看懂文字的同時,也能完美識別圖片。

日前,鎂客網(wǎng)從元乘象研發(fā)團(tuán)隊獲悉,“元乘象Chatlmg”最近剛剛上線,關(guān)注微信公眾號“元乘象”即可體驗該應(yīng)用。(注:受限于算力,初期為邀請制訪問方式)

那么,“元乘象Chatlmg”的使用體驗究竟如何,它的圖片識別功能是否真的神奇呢?在產(chǎn)品上線前夕,鎂客網(wǎng)進(jìn)行了一次全方位的測評總結(jié)。

圖 | 元乘象Chatlmg Logo

看圖說話?這款ChatGPT應(yīng)用很神奇

進(jìn)入“元乘象Chatlmg”,可以看到該應(yīng)用的界面十分簡潔明晰——位于下方的文字對話框,對稱式的頭像排版,各種元素組合成我們常見的聊天軟件界面。

而在該應(yīng)用的左下方,可以看到一個顯眼的“上傳圖片”按鈕。

目前,該應(yīng)用圖片上傳支持三種方式,分別是照片圖庫、拍照文件導(dǎo)入,一次上傳一張。

恰逢三八婦女節(jié),鎂客網(wǎng)也選了兩樣物品交給“元乘象Chatlmg”來幫忙判定一下是否適合,一張是從搜索引擎上下載的口紅圖片,另一張是通過手機(jī)現(xiàn)拍的便簽本圖片

可以看到,“元乘象Chatlmg”精準(zhǔn)識別出了兩張圖片中的產(chǎn)品,并且還延伸出一些其他描述,比如記事本上的小熊很可愛、口紅放在白色背景前等等。

與此同時,對于這兩份物品是否適合送給女孩子做禮物,也給出了自己的判斷,還會提出禮物是否適合需要依據(jù)接收者喜好的理性建議。

在“元乘象Chatlmg”給出回復(fù)后,我們又追問了一句

嗯,建議非常中肯,上下文理解的邏輯也做到了連貫。

此外,鎂客網(wǎng)也上傳了一些其他圖片讓“元乘象Chatlmg”來識別。

比如這個:

又比如這個:

還有這些:

可以看出,“元乘象Chatlmg”的識別能力還是相當(dāng)精準(zhǔn),并能通過文字形式來描述所看到的圖片內(nèi)容。

對比基于純文本互動的ChatGPT,除了寫詩歌、撰寫文章這類基本互動,多了雙“眼睛”的“元乘象Chatlmg”顯然又挖掘出幾項新功能,物品識別正是其重要功能之一。

之后,隨著數(shù)據(jù)量的不斷擴(kuò)增以及產(chǎn)品的不斷優(yōu)化,鎂客網(wǎng)也期待“元乘象Chatlmg”能給我們帶來更多出彩的表現(xiàn)。

百億參數(shù)大模型加持,未來將持續(xù)升級

本質(zhì)上,ChatGPT是一款聊天機(jī)器人產(chǎn)品,在GPT-3大模型的幫助下,提供了文本生成的能力。而ChatGPT之所以強(qiáng)悍,也恰恰得益于GPT-3。

作為OpenAI開發(fā)的自然語言處理模型,其身上有著太多話題點。早在ChatGPT推出之前,GPT-3就已經(jīng)在AI領(lǐng)域成功出圈。

據(jù)悉,該模型達(dá)到1750億參數(shù),一次訓(xùn)練就需調(diào)用上萬塊GPU,花費近460萬美元的成本。如此瘋狂的“吞金能力”,自然能支撐起ChatGPT這樣的瘋狂應(yīng)用。

那么ChatGPT還有什么不足之處嗎?答案是有的!

據(jù)元乘象研發(fā)團(tuán)隊表示,“元乘象Chatlmg”搭載了自研的百億級別參數(shù)多模態(tài)大模型,相當(dāng)于給ChatGPT裝上“眼睛”,使其能夠更像人一樣去對話。

所謂多模態(tài),在AI領(lǐng)域中往往指感知信息,如圖像、文本、語音等協(xié)同,幫人工智能更準(zhǔn)確地理解外部世界。

也正是在多模態(tài)大模型的加持下,“元乘象Chatlmg”擁有了看懂圖像的能力。

據(jù)元乘象研發(fā)團(tuán)隊介紹,目前該元乘象AI大模型參數(shù)規(guī)模大概150億;數(shù)據(jù)方面目前主要是圖文對數(shù)據(jù)、VQA數(shù)據(jù)等。而在訓(xùn)練過程中,該模型放開盡量少的可學(xué)習(xí)參數(shù),從而保證在有限算力上的高效訓(xùn)練。

在問及該模型的未來發(fā)展路徑時,元乘象研發(fā)團(tuán)隊向鎂客網(wǎng)透露,除了當(dāng)下的圖文互動外,未來該大模型還會把圖片生成的能力結(jié)合進(jìn)來,這樣在回答的時候也能回復(fù)自己生成的圖像,讓對話變得更生動。

另外,該模式也會加入包含更多模態(tài),如視頻、音頻等,甚至與數(shù)字人等技術(shù)結(jié)合,開發(fā)出更生動立體的形象。

可以想象,在元乘象百億參數(shù)多模態(tài)大模型的加持下,我們與聊天機(jī)器人的對話將變得更像真人口吻,AI技術(shù)在未來帶給我們的驚喜也會越來越多。

中國AI廠商狂奔,國產(chǎn)ChatGPT還有多遠(yuǎn)?

就在本月舉行的十四屆全國人大一次會議“部長通道”上,科技部部長王志剛在談到ChatGPT時,贊揚其為AI及相關(guān)行業(yè)帶來的進(jìn)步。

與此同時,由ChatGPT引發(fā)的各種討論,也被各位代表、委員們帶進(jìn)了兩會。

事實上,早在2017年我國將發(fā)展人工智能上升為國家戰(zhàn)略前,AI就已是全國兩會上的“??汀薄H缃馛hatGPT火爆全球,不禁讓人們再次發(fā)問:中國的AI行業(yè)該如何抓住ChatGPT的時代潮流?

借由新品發(fā)布的機(jī)會,鎂客網(wǎng)也與元乘象研發(fā)團(tuán)隊負(fù)責(zé)人高一釗博士就此問題進(jìn)行了一番交流探討。

在他看來,國內(nèi)對于AI大模型的建設(shè)需要有長遠(yuǎn)的布局和工作的連續(xù)性,才能開發(fā)出真正創(chuàng)新的技術(shù)

當(dāng)我們回顧C(jī)hatGPT的“發(fā)家史”便可以發(fā)現(xiàn),想做好一款A(yù)I大模型并非易事,背后是長期的資金投入以及算力技術(shù)迭代,另外還要考慮訓(xùn)練數(shù)據(jù)的優(yōu)化、計算能耗的降低等方方面面。

換句話說,想做好一款類ChatGPT應(yīng)用,并非通過一次簡單的“百米沖刺”即可完成,而是需要耐心跑完一場“萬米長跑”,才能進(jìn)入群雄逐鹿的“決賽圈”。

但就目前的發(fā)展現(xiàn)狀來看,國內(nèi)大廠的AI大模型仍處在研發(fā)階段,能像“元乘象Chatlmg”一樣走到應(yīng)用層面的團(tuán)隊仍非常少見——首先國內(nèi)AI大模型的研發(fā)普遍起步較晚,人才缺口嚴(yán)重,其次是中文語境下大模型的訓(xùn)練難度更大,耗費的時間遠(yuǎn)超英文。

這些問題本該需要“耐心”去解決,但隨著上一波AI投資熱潮的冷卻,許多公司被迫縮減預(yù)算,最終導(dǎo)致相關(guān)AI業(yè)務(wù)發(fā)展陷入了瓶頸。

相比之下,元乘象研發(fā)團(tuán)隊則走得相對順利,一方面,該團(tuán)隊在AI應(yīng)用領(lǐng)域的長期深耕探索,另一方面也得益于他們在多模態(tài)預(yù)訓(xùn)練模型上正確判斷與前瞻性,最終在整個團(tuán)隊的堅持下,終在ChatGPT時代迎來了“開花結(jié)果”。

談及AI企業(yè)未來的探索之道時,高博士也給出了自己的一些看法:“在生態(tài)搭建方面,國內(nèi)可以促進(jìn)開源,畢竟人多力量大。

結(jié)語

自去年發(fā)布以來,ChatGPT早已從一種“現(xiàn)象級產(chǎn)品”進(jìn)化為一種“科技符號”,國內(nèi)科技大廠爭先恐后推出類ChatGPT產(chǎn)品,希望在這場競賽中摘得所謂的“勝利”。

同時,伴隨ChatGPT的火熱,國內(nèi)AI行業(yè)再次掀起新一輪新品熱潮,“元乘象Chatlmg”正是在這期間脫穎而出。

從“元乘象Chatlmg”應(yīng)用的測評來看,其體驗感已經(jīng)非常友好,甚至擁有“圖像識別”這種ChatGPT所不具備的功能。

當(dāng)然,作為早期版本的“元乘象Chatlmg”,在一些細(xì)節(jié)方面仍有欠缺,但相信在元乘象研發(fā)團(tuán)隊努力與堅持下,未來國產(chǎn)ChatGPT應(yīng)用也能驚艷行業(yè)。