應用

技術

物聯(lián)網世界 >> 物聯(lián)網新聞 >> 物聯(lián)網熱點新聞
企業(yè)注冊個人注冊登錄

智能音箱走出單純硬件戰(zhàn)爭 比拼創(chuàng)新落地與盈利

2019-05-10 09:02 第一財經

導讀:北京時間5月7日上午,谷歌在第11屆GoogleI/O大會上發(fā)布了10英寸帶屏音箱NestHubMax,售價229美元,這也是自Nest并入谷歌后雙方共同打造的第一款產品。

北京時間5月7日上午,谷歌在第11屆GoogleI/O大會上發(fā)布了10英寸帶屏音箱NestHubMax,售價229美元,這也是自Nest并入谷歌后雙方共同打造的第一款產品。

雖然還有不少人質疑帶屏智能音箱是雞肋產品,不過與純語音交互相比,帶屏幕的互動更直觀。目前,互聯(lián)網巨頭包括亞馬遜、谷歌、Facebook和百度等都推出了帶屏智能音箱,將智能音箱作為入口,提供自己原有的服務。

市場調研機構StrategyAnalytics的最新研究顯示,智能音箱是2018年最熱門的消費電子產品。2018年第四季度的出貨量增長了95%,達到3850萬臺,超過了2017年的總量。其中,帶屏智能音箱占智能音箱的總出貨量需求的10%以上。

StrategyAnalytics總監(jiān)華特金斯(DavidWatkins)評論道:“谷歌的HomeHub、亞馬遜的EchoShow和百度的小度在家等帶屏智能音箱受到消費者的歡迎,他們被音視頻結合吸引。與僅有語音交互而言,帶屏智能音箱使用場景更多。預計到2019年,帶屏智能音箱將成為市場增長的重要推動力?!?/p>

創(chuàng)新落地的載體

“天貓精靈,今天北京天氣如何?”“今天北京天氣晴,12℃~28℃,空氣指數(shù)30。”

擁有天貓精靈音箱的小伙伴對于上述對話一定不會陌生。天貓精靈體現(xiàn)的是對話式人工智能,整個人機交互過程可分為喚醒、識別、理解、反饋四個環(huán)節(jié)。

“今天北京天氣如何?”這段語音能夠通過語音識別轉換成文字,提取“今天”、“北京”、“天氣”等關鍵詞,通過背后的天氣預報網站將數(shù)據(jù)調取出來;從天氣預報網站調取出來的數(shù)據(jù)組裝成自然語音,就是語音合成,即“今天北京天氣晴,12℃~28℃,空氣指數(shù)30?!?/p>

“之所以加入阿里巴巴,主要是自己更偏向于技術落地的工作。”天貓精靈語音技術負責人聶再清在接受第一財經記者采訪時表示,此前在微軟亞洲研究院工作時帶領的研究項目(人立方、微軟學術搜索、LUIS)就比較偏創(chuàng)新和實際技術落地的結合。

加入阿里巴巴人工智能實驗后,讓他感受最強烈的是這里創(chuàng)新落地的速度,以及前沿技術與產品配合的緊密程度。自2017年10月9日加入阿里巴巴以來,聶再清就一直負責天貓精靈語音助手算法的研發(fā)工作。

阿里巴巴人工智能實驗室并不是一個純研究部門,它與業(yè)務和商業(yè)是緊密相關的,即使是前沿技術研發(fā)也是為未來的業(yè)務與商業(yè)研發(fā)。這意味著,實驗室除了學術以外,還有自己的產品以及商業(yè)邏輯。

以連續(xù)對話能力為例,很多用戶都表示過每次和天貓精靈說話前都要叫一次“天貓精靈”有點累,能不能實現(xiàn)一個功能使得用戶在短時間內和天貓精靈的多次交互只需喚醒天貓精靈一次?要實現(xiàn)這個連續(xù)對話能力的最大的技術挑戰(zhàn)是能夠區(qū)分用戶的哪些話是對天貓精靈說的,哪些話不是。為了識別用戶對天貓精靈說的話這里有兩類信息可用:用戶說的語義內容和用戶聲音的強弱、停頓、方向等聲學特征。

天貓精靈的語音語義科學家們經過多次腦暴,一起獨創(chuàng)了融合語音和語義特征的混合神經網絡,融入了長短期記憶網絡(LSTM),卷積網絡(CNN)和注意力機制(Attention),并結合預訓練的語言模型,通過海量數(shù)據(jù)的訓練,深度網絡自主學習到人機對話提取的能力。最終,在讓用戶能夠享受到便捷的連續(xù)交互的同時,實現(xiàn)了業(yè)界最低的誤打擾率。聶再清透露,目前已經有超過一百萬用戶主動打開這個功能,成為語音交互一種新的對話模式。

不過,每個人的興趣愛好不同,一個家庭中多個成員共用一個天貓精靈,此前就存在天貓精靈將父母喜歡的歌曲推薦給女兒的情形。

聶再清表示,聲紋算法科學家和個性化推薦科學家一起提出了一種不依賴于聲紋注冊的開創(chuàng)性的解決方案:把語音指令的聲學特征在我們的個性化推薦深度學習模型(Transformer)中直接使用,創(chuàng)造性地解決了聲紋注冊率低和聲紋聚類不準導致的語音助手多人混用的個性化推薦技術難題。大眾盲評的用戶調研數(shù)據(jù)顯示,加入聲紋后大大降低了歌曲推薦的興趣混亂程度,有效地解決了多人混用的推薦難題,用戶的人均時長提升10%。

不再是單純的硬件戰(zhàn)爭

智能音箱的戰(zhàn)爭不再是單純的硬件戰(zhàn)爭,更多場景的升級和創(chuàng)新功能的加入或許是更加重要的一環(huán)。數(shù)字中國峰會現(xiàn)場,百度CEO李彥宏稱,以智能音箱為代表的智能家居,可以說是AI時代搜索的新入口,它讓人們用更自然的方式和機器進行交互,也是家庭里面的信息服務的入口。

從某個角度上來說,智能音箱甚至強調的功能也不僅僅是音箱的基礎功能了。比如,相較于普通智能音箱,帶屏音箱一般增加了屏幕和攝像頭。因此,不僅可以實現(xiàn)智能音箱原有的播放音樂、查看天氣和新聞、控制智能家居產品等功能,還可以進行視頻觀看、視頻通話功能,甚至集成安防功能。

與谷歌上款帶屏音箱HomeHub相比,NestHubMax還增加了廣角的智能攝像頭,并且增大了屏幕尺寸。NestHubMax能實現(xiàn)在線觀看視頻、家居控制、拍照、安全監(jiān)控和視頻通話等功能。谷歌稱,NestHubMax特別為家庭和朋友聚會中的共享場所而設計。

此次發(fā)布的NestHubMax還增加了臉部匹配(FaceMatch)功能。此項在手機上已經較為常見的人臉解鎖功能落地智能音箱以后,可以將每個家庭成員需要的特定服務實時呈現(xiàn)或者推送。

谷歌舉例稱,“早上當你走進廚房時,智能助手知道你的日程安排、通勤細節(jié)、天氣以及其他當天所需的信息來問候你。當你下班回家時,HubMax歡迎你回家,并提供要處理的提醒和消息。智能助理為音樂和電視節(jié)目提供個性化推薦,你甚至可以看到誰給你留下了視頻消息?!?/p>

李彥宏提到,兩年前,百度推出全球第一款帶屏智能音箱小魚在家,又進一步激活了百度此前在視頻方面的布局。小魚在家與百度的合作始于2015年,2017年合作推出帶屏智能音箱,2017年4月推出搭載百度DuerOS的新款視頻通話機器人“分身魚”,2018年3月,百度宣布戰(zhàn)略投資小魚在家,從資源、資金、平臺等各方面予以支持。2019年2月,小度在家?guī)林悄芤粝涑鲐浟渴状纬^無屏的小度智能音箱。

“如同下棋講究占據(jù)先機,堅持技術創(chuàng)新,就會讓我們下出‘先手棋’,而不是再做跟隨者?!?/p>

就本質而言,李彥宏多次多場合對百度智能音箱的推廣,意在爭奪智能家居入口話語權。

不過,不管是智能音箱硬件技術,還是遠場識別、語音識別和語義識別等語音交互技術,都存在不少問題,例如出現(xiàn)誤喚醒率高、連續(xù)對話不穩(wěn)定、語義理解能力差等情況。有用戶表示,希望能提高識別率,“現(xiàn)在買智能音箱只用來聽歌、當鬧鐘等,而這些手機語音助手就能完成,真正接入并控制家電的太少了”。

即使在美國,智能音箱最大的用處也是聽音樂。尼爾森此前一份報告指出,幾乎所有消費者(90%)都用智能音箱聽音樂,而68%的人會聽新聞;大約81%的用戶會使用語音交互來獲取實時信息,例如天氣和交通狀況。

StrategyAnalytics副總裁墨瑟(DavidMercer)表示:“現(xiàn)在問題是,如何通過用戶群獲利,看看每個玩家如何應對這一挑戰(zhàn)將會很有趣。第一步是通過智能音箱鼓勵消費者更廣泛和更頻繁地使用應用和服務,這將為設備OEM或平臺提供商帶來創(chuàng)收機會。語音購物和廣告插入是非常明顯的方式?!?/p>