應(yīng)用

技術(shù)

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點(diǎn)新聞
企業(yè)注冊(cè)個(gè)人注冊(cè)登錄

對(duì)話騰訊李學(xué)朝:解讀從“數(shù)字人”到“數(shù)智人”的進(jìn)化論

2021-11-05 14:06 智東西

導(dǎo)讀:騰訊智能產(chǎn)品副總裁、騰訊教育副總裁李學(xué)朝接受媒體采訪,分享了騰訊云小微數(shù)智人擁有的差異化競(jìng)爭(zhēng)力,以及多模態(tài)人機(jī)交互模式的四個(gè)主要技術(shù)趨勢(shì)。

近日,2021騰訊數(shù)字生態(tài)大會(huì)云智能專場(chǎng)上,騰訊云小微發(fā)布基于新一代多模態(tài)人機(jī)交互技術(shù)的全新數(shù)智人產(chǎn)品矩陣。

3D超寫(xiě)實(shí)、3D寫(xiě)實(shí)、3D半寫(xiě)實(shí)、2D真人、2D卡通,五種風(fēng)格的數(shù)智人產(chǎn)品集中亮相,可滿足各類場(chǎng)景服務(wù)需求,提供定制化角色服務(wù),擁有文旅導(dǎo)覽、金融客服、多語(yǔ)種主播、手語(yǔ)主播等不同職業(yè)身份和技能。這些數(shù)智人也參與到了本屆騰訊數(shù)字生態(tài)大會(huì)多個(gè)專場(chǎng)的主持工作中。

會(huì)后,騰訊智能產(chǎn)品副總裁、騰訊教育副總裁李學(xué)朝接受媒體采訪,分享了騰訊云小微數(shù)智人擁有的差異化競(jìng)爭(zhēng)力,以及多模態(tài)人機(jī)交互模式的四個(gè)主要技術(shù)趨勢(shì)。

一、從人機(jī)交互向交互智能升級(jí),騰訊云小微要打造不一樣的“數(shù)智人”

從過(guò)去的文本客服,升級(jí)為語(yǔ)音客服,再到多模態(tài)人機(jī)交互系統(tǒng)的發(fā)展周期,人機(jī)交互模式正持續(xù)進(jìn)化。

具備多模態(tài)交互能力的數(shù)字人,已經(jīng)開(kāi)始在眾多行業(yè)中商業(yè)化落地,輔助人工服務(wù),提升企業(yè)運(yùn)行效率。例如,數(shù)字人在金融、文旅、傳媒、公共服務(wù)、醫(yī)療、零售等行業(yè)場(chǎng)景中,可擔(dān)任坐席客服、理財(cái)顧問(wèn)、播報(bào)主持、導(dǎo)游導(dǎo)覽角色;在文化娛樂(lè)場(chǎng)景,可以作為虛擬偶像、虛擬歌手等形成IP資產(chǎn);在智能車載、智能交通、智能家居等場(chǎng)景,可以通過(guò)與智能設(shè)備結(jié)合,為用戶提供智能化服務(wù)。隨著數(shù)字人應(yīng)用邊界的不斷拓展,產(chǎn)業(yè)價(jià)值也在不斷擴(kuò)大。

騰訊智能產(chǎn)品副總裁、騰訊教育副總裁李學(xué)朝在接受采訪時(shí)談道,近期中國(guó)信通院云計(jì)算與大數(shù)據(jù)研究所公布的2021年首批可信AI評(píng)測(cè)結(jié)果中,由騰訊申報(bào)的“交互式數(shù)字人”在2D真人形象類數(shù)字人項(xiàng)目中獲得了優(yōu)良級(jí)評(píng)價(jià),這體現(xiàn)了對(duì)騰訊云小微數(shù)智人從技術(shù)到產(chǎn)品維度的認(rèn)可。

此次騰訊云小微與AI Lab聯(lián)合開(kāi)發(fā)的新一代數(shù)智人,擁有更鮮活的形象、更擬人的交互能力,讓將人機(jī)交互從單純的對(duì)話工具轉(zhuǎn)變?yōu)檎嬲臏贤ń涣鳎瑸榉?wù)體驗(yàn)的提升帶來(lái)質(zhì)的轉(zhuǎn)變。在服務(wù)質(zhì)量穩(wěn)定的同時(shí),數(shù)智人可快速?gòu)?fù)制,滿足激增的用戶服務(wù)需求,實(shí)現(xiàn)成本可控,高效成為助力企業(yè)發(fā)展和數(shù)字化轉(zhuǎn)型。

src=http___image.kejixun.com_2021_1104_20211104033106451.png&refer=http___image.kejixun.jpg

技術(shù)、落地、懂行,這是李學(xué)朝眼中,騰訊云小微數(shù)智人的三大差異化特征。

技術(shù)方面,此前的數(shù)字人偏靜態(tài),而騰訊主打的數(shù)智人更加智能化,加入會(huì)話AI等能力,實(shí)現(xiàn)用戶與數(shù)智人真正的會(huì)話并獲得相應(yīng)服務(wù)。

NLP、知識(shí)圖譜、視覺(jué)等全棧AI底層能力,讓數(shù)智人擁有強(qiáng)大的形象表現(xiàn)力、識(shí)別力和感知理解能力,可識(shí)別超34種語(yǔ)種、方言、翻譯超過(guò)11個(gè)語(yǔ)種,擁有超過(guò)46萬(wàn)垂直行業(yè)場(chǎng)景熱詞庫(kù),在多業(yè)務(wù)場(chǎng)景中都能做到“聽(tīng)得清、聽(tīng)得懂、會(huì)表達(dá)”。

這些數(shù)智人擁有超細(xì)微面部情感表情以及數(shù)百種肢體動(dòng)作,在形象選擇方面,不但可支持定制化需求,還獲得了騰訊海量IP形象授權(quán)。“我們希望通過(guò)情緒和情感化升級(jí),肢體語(yǔ)言結(jié)合更情感化的語(yǔ)言合成,(使你)感覺(jué)到這個(gè)人在服務(wù)過(guò)程中確實(shí)是跟你的感受共情。”李學(xué)朝說(shuō)。

騰訊數(shù)智人的真正產(chǎn)品化和落地上場(chǎng)景嵌入的實(shí)現(xiàn)是比較靠前的,再加上打造數(shù)智人需要了解行業(yè)和具體場(chǎng)景,與技術(shù)積累結(jié)合,這些融合組成了騰訊云小微數(shù)智人的差異性。

此前搜狗在2D數(shù)字人方面已有很多積累。搜狗并入騰訊后,李學(xué)朝談道,搜狗在2D數(shù)字人方面的技術(shù)、產(chǎn)品與場(chǎng)景積累,與云小微數(shù)智人的能力產(chǎn)生了疊加和協(xié)同,從而能提供更好的產(chǎn)品。

騰訊云小微通過(guò)整合AI能力,連接騰訊豐富的內(nèi)容和服務(wù)生態(tài),面向使用場(chǎng)景打磨平臺(tái)能力,助力行業(yè)客戶打造有智能、有形象、生動(dòng)交互的AI。

除了提供標(biāo)準(zhǔn)化的行業(yè)包外,騰訊云小微也可以在一些新場(chǎng)景下,為合作伙伴或客戶提供定制化服務(wù),包括形象定制、行業(yè)場(chǎng)景理解,讓數(shù)智人更懂這個(gè)場(chǎng)景,對(duì)話更加聽(tīng)得清、聽(tīng)得懂。而與客戶的合作,又會(huì)為這些場(chǎng)景積累新的應(yīng)用,從而進(jìn)一步積累騰訊云小微數(shù)智人的技術(shù)、工具和場(chǎng)景落地經(jīng)驗(yàn)。

二、基于兩大交互模式,落地金融、文旅等多類場(chǎng)景

不同于近期很火的元宇宙虛擬人,李學(xué)朝特意提到數(shù)智人是為數(shù)字世界打造的數(shù)字員工,旨在更好地服務(wù)行業(yè)場(chǎng)景、服務(wù)到現(xiàn)實(shí)世界的用戶。

按照交互模式,數(shù)智人主要有播報(bào)式和交互式兩種類型。播報(bào)式通過(guò)文本驅(qū)動(dòng),進(jìn)行內(nèi)容播報(bào),提升內(nèi)容生產(chǎn)效率,適用于新聞播報(bào)、應(yīng)急服務(wù)等場(chǎng)景;交互式數(shù)智人通過(guò)對(duì)話提供服務(wù),能更好地協(xié)助企業(yè)客服,提升業(yè)務(wù)辦理效率。

在金融領(lǐng)域,數(shù)智人已助力平安普惠落地了行業(yè)首個(gè)金融AI數(shù)字員工,通過(guò)自然可視化的人機(jī)智能交互,累計(jì)服務(wù)用戶500萬(wàn),審核成本降低60%,保障了2年間7x24h的在線服務(wù)。

在文旅領(lǐng)域,數(shù)智人化身導(dǎo)游,在故宮、龍門(mén)石窟等景區(qū)提供AI導(dǎo)覽服務(wù),為游客提供個(gè)性化游覽路線推薦,景點(diǎn)文物講解等多種服務(wù)。

在傳媒行業(yè),助力新華社推出全球首個(gè)“AI合成主播”,目前已累計(jì)播報(bào)新聞超過(guò)1萬(wàn)條,保證播報(bào)零誤差,可對(duì)日常和突發(fā)事件實(shí)時(shí)響應(yīng)。

在教育領(lǐng)域,數(shù)智人作為助教,可根據(jù)文本和課件進(jìn)行自學(xué)習(xí),以更生動(dòng)、親切的形象和學(xué)生互動(dòng)。

同時(shí),騰訊云小微致力于讓數(shù)智人與智能設(shè)備結(jié)合,打造以用戶為中心的生活服務(wù)。

比如在公共服務(wù)中,數(shù)智人可及時(shí)、高效地處理用戶在公共交通中的票務(wù)等問(wèn)題,也可輔助人力進(jìn)行政策問(wèn)答,提升政策辦事問(wèn)答效率。

在智能家居中,用戶通過(guò)語(yǔ)音指令即可隨時(shí)隨地與數(shù)智人交流,憑借全新的視覺(jué)表達(dá),提供自然、豐富的智能交互服務(wù)。

李學(xué)朝也談到數(shù)智人面臨的一些挑戰(zhàn)與風(fēng)險(xiǎn)。

首先,如果數(shù)智人不夠智能,出現(xiàn)答非所問(wèn)等情況,會(huì)導(dǎo)致客戶感受大打折扣。其次,在使用方面,目前數(shù)智人主要針對(duì)封閉的企業(yè)場(chǎng)景,去解決客戶服務(wù)流程中的各種業(yè)務(wù)問(wèn)題,還沒(méi)有將其技術(shù)完全開(kāi)放和應(yīng)用到C端場(chǎng)景中,因?yàn)镃端可能存在此前“換臉”等倫理問(wèn)題的風(fēng)險(xiǎn)。

李學(xué)朝坦言,當(dāng)前技術(shù)還存在一些局限性,比如很難從文字、語(yǔ)音中準(zhǔn)確理解情感,在合成語(yǔ)音時(shí),也要基于前面語(yǔ)義、語(yǔ)音情感的輸入,讓合成的聲音有情感表達(dá)。另外,如何基于文本來(lái)驅(qū)動(dòng)表情,也需要持續(xù)的探索。這些技術(shù)的持續(xù)進(jìn)化,將使得數(shù)智人表現(xiàn)得更為立體。

三、多模態(tài)人機(jī)交互模式的四個(gè)技術(shù)趨勢(shì)

最后,李學(xué)朝談到未來(lái)多模態(tài)人機(jī)交互模式所呈現(xiàn)的四個(gè)技術(shù)趨勢(shì)。

首先,在多模態(tài)交互過(guò)程中,一個(gè)趨勢(shì)是圍繞“聽(tīng)得清”,怎么去更多地跨界融合。今天騰訊云小微與騰訊AI Lab聯(lián)合發(fā)布了全新技術(shù)品牌——騰訊語(yǔ)音智能,即是更好地迎合這個(gè)趨勢(shì)。

騰訊語(yǔ)音智能為設(shè)備提供在復(fù)雜語(yǔ)音環(huán)境下,從輸入到輸出交互體驗(yàn)全面升級(jí)的全鏈路的AI+聲學(xué)技術(shù)解決方案。比如通過(guò)從前端與ASR(自動(dòng)語(yǔ)音識(shí)別)模式結(jié)合,實(shí)現(xiàn)在復(fù)雜、嘈雜場(chǎng)景中更好地識(shí)別和分離出目標(biāo)人物的語(yǔ)音。

第二個(gè)是在家居和車載等真實(shí)場(chǎng)景下,除了需要克服環(huán)境噪聲、人聲干擾等問(wèn)題外,還需要應(yīng)對(duì)識(shí)別任務(wù)復(fù)雜度高、用戶口音多變、低資源設(shè)備上識(shí)別性能的提升等種種挑戰(zhàn)。

在后端處理環(huán)節(jié),騰訊語(yǔ)音智能研發(fā)了“語(yǔ)音-語(yǔ)義結(jié)合的多領(lǐng)域在線識(shí)別系統(tǒng)”、“全雙工交互及閑聊拒識(shí)”、“端到端高性能離線識(shí)別系統(tǒng)”等技術(shù)方案,運(yùn)用深度學(xué)習(xí)建模、前后端聯(lián)合優(yōu)化、語(yǔ)音-語(yǔ)義聯(lián)合優(yōu)化等技術(shù)手段,很好地滿足了不同應(yīng)用場(chǎng)景下,對(duì)于語(yǔ)音交互在識(shí)別率、魯棒性、資源消耗和用戶體驗(yàn)等多方面的要求。

第三個(gè)在TTS(從文本到語(yǔ)音)方面,以前是單純一個(gè)聲音,現(xiàn)在加上肢體或臉部表情,以及語(yǔ)言的情緒表達(dá),對(duì)信息理解更加多元和準(zhǔn)確。

第四個(gè)是文本驅(qū)動(dòng),輸入一些文本、情緒相關(guān)的內(nèi)容,能讓數(shù)智人的面部表情根據(jù)上下文和各種情況做不同的表現(xiàn)。

綜合這幾個(gè)大的融合趨勢(shì)后,語(yǔ)音將能被更清晰地輸入、更形象地理解和更準(zhǔn)確地表達(dá)出來(lái)。

結(jié)語(yǔ):騰訊云智能戰(zhàn)略的重要組成部分

此次大會(huì)期間,騰訊首次公布了云智能戰(zhàn)略架構(gòu),而騰訊云小微數(shù)智人是騰訊云智能戰(zhàn)略的重要組成部分,堅(jiān)持“服務(wù)于人”的價(jià)值理念,來(lái)為用戶提供更有溫度的服務(wù)、更自然的交互體驗(yàn)。

騰訊云智能戰(zhàn)略架構(gòu)面向管理者、生產(chǎn)者、開(kāi)發(fā)者、用戶四類人群,提供決策、協(xié)作、創(chuàng)新、服務(wù)四大核心能力,同時(shí)依托人工智能、大數(shù)據(jù)、云計(jì)算和物聯(lián)網(wǎng)的云智能架構(gòu),貼合客戶產(chǎn)業(yè)場(chǎng)景需求,輸出面向各行業(yè)的智能綜合解決方案。

李學(xué)朝提到:“數(shù)智人正在走進(jìn)我們的生活,在企業(yè)中承擔(dān)崗位職責(zé),為用戶創(chuàng)造前所未有交互智能體驗(yàn)同時(shí),提升企業(yè)服務(wù)效率和品牌形象。”

當(dāng)前,騰訊云小微新一代數(shù)智人已經(jīng)在金融、傳媒、文旅、出行等多各業(yè)務(wù)場(chǎng)景領(lǐng)域發(fā)揮價(jià)值。我們期待看到未來(lái)數(shù)智人技術(shù)與文字、聽(tīng)覺(jué)、視覺(jué)、觸覺(jué)、肢體動(dòng)作等多維度感知實(shí)現(xiàn)更好的融合,為用戶帶來(lái)更高質(zhì)量的信息交互以及建立更深的情感鏈接。