應(yīng)用

技術(shù)

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點(diǎn)新聞
企業(yè)注冊(cè)個(gè)人注冊(cè)登錄

5G對(duì)音頻的賦能到底是怎么發(fā)生的?

2019-08-22 09:37 腦極體

導(dǎo)讀:5G雖然與視覺緊密相關(guān),但它能給聲音帶來的東西也不算少數(shù)。今天我們從幾個(gè)方向展示一下,5G對(duì)音頻的賦能到底是怎么發(fā)生的。

語音識(shí)別,5G,音頻,IOT,AI語音,VR

圖片來自“123rf.com.cn”

“5G來了,你最盼望的應(yīng)用是什么?”

如果拿這個(gè)問題去詢問大部分手機(jī)用戶,相信收獲的答案會(huì)是高清直播、VR、云游戲等等。應(yīng)該近乎沒人會(huì)說,“5G來了,會(huì)讓我聽音樂更爽”。

確實(shí),5G提高帶寬降低時(shí)延,基本指向于網(wǎng)絡(luò)能夠支撐更好畫質(zhì),于是無論視頻、游戲還是AR、VR,都把5G牢牢和視覺困在了一起。

那么5G網(wǎng)絡(luò)的升級(jí),真的就跟聽覺一點(diǎn)關(guān)系都沒有嗎?換言之,今天智能手機(jī)以及個(gè)人硬件里,關(guān)于“聽”的那一部分是不是已經(jīng)走到了盡頭?

其實(shí)未必,5G雖然與視覺緊密相關(guān),但它能給聲音帶來的東西也不算少數(shù)。今天我們從幾個(gè)方向展示一下,5G對(duì)音頻的賦能到底是怎么發(fā)生的。

高音質(zhì)與低時(shí)延:5G特性下的聲音

首先能夠給聲音帶來改變的,依舊是5G的基礎(chǔ)特性:大帶寬與低時(shí)延。

沿著這兩條軌跡,我們會(huì)發(fā)現(xiàn)現(xiàn)有聲音傳輸還是有較大空間來進(jìn)行優(yōu)化。在4G網(wǎng)絡(luò)環(huán)境下,我們習(xí)慣了隨時(shí)在線收聽音樂、音頻節(jié)目,甚至觀看直播,但其基本是建立在音質(zhì)經(jīng)過較大幅度壓縮基礎(chǔ)上的。而當(dāng)網(wǎng)絡(luò)傳輸速率達(dá)到10Gbps左右的時(shí)候,高清音質(zhì)也可以通過網(wǎng)絡(luò)快速傳輸,保證實(shí)時(shí)化共享。另一方面,5G網(wǎng)絡(luò)的低時(shí)延特性也給聲音帶來了新的可能,比如多聲源同步問題可以得到比較妥善的解決。

把這些5G特性落到應(yīng)用場景里,我們可以比較簡單地看到,三個(gè)方面的5G+聲音能力將被打開。隨之而來是一些新玩法可能被挖掘。

一、高清、高品質(zhì)音樂的在線化。

我們知道,一些高質(zhì)量音樂在手機(jī)段很難復(fù)現(xiàn),一方面是由于揚(yáng)聲環(huán)境有限,另一方面也是因?yàn)榫W(wǎng)絡(luò)環(huán)境限制,導(dǎo)致質(zhì)量較大的音頻文件很難傳輸。5G直接帶來的改變,是高品質(zhì)音樂和音頻節(jié)目具有更高的實(shí)現(xiàn)性。這個(gè)特性可能打開的應(yīng)用,不僅于音樂一項(xiàng)。很多對(duì)于音質(zhì)細(xì)節(jié)具有高要求的音頻內(nèi)容,比如環(huán)境音、催眠音效、白噪音等等也可以獲得更好的輸出效果。比如用聲音來觸發(fā)大腦舒適感的ASMR,一直以來其圈內(nèi)都強(qiáng)調(diào)專用收音設(shè)備的等級(jí)。而高等級(jí)收音同時(shí)也需要大帶寬網(wǎng)絡(luò)的輔助,才能最終讓用戶體驗(yàn)到最終效果,5G到來或許是類似領(lǐng)域的一個(gè)契機(jī)。

二、讓聲音在5G中互動(dòng)。

5G的另一個(gè)特性是低時(shí)延,這意味著不同音源的聲音可以更好組成統(tǒng)一體。這一點(diǎn)應(yīng)用在在線音頻中,可以很好解決幾個(gè)終端同步收音合奏的效果。今天的直播界,也經(jīng)常會(huì)搞一些對(duì)唱和聲之類的玩法,但質(zhì)量很難跟現(xiàn)場音樂相提并論。尤其樂器合奏,近乎于是無法在4G網(wǎng)絡(luò)環(huán)境下達(dá)成很好效果的。

5G網(wǎng)絡(luò)的特性,可以讓異地音樂排練變?yōu)榭赡?。而?duì)商業(yè)形態(tài)的最直接影響在于,5G網(wǎng)絡(luò)或許可以讓不同地域的歌手樂手完成高品質(zhì)的合奏玩法,換言之就是網(wǎng)上音樂會(huì)成為可能。在今天直播與音頻節(jié)目盛行的環(huán)境下,類似玩法應(yīng)該會(huì)有比較好的表現(xiàn)。

三、更好的聲畫同步效果。

音頻當(dāng)然不止于自身,更多情況下它需要與視頻合作。5G網(wǎng)絡(luò)的低時(shí)延特性,一個(gè)可能性在于能夠升級(jí)VR、游戲等環(huán)境下的聲畫同步體驗(yàn),讓聲音更好與視覺配合。這個(gè)體驗(yàn)最直接的商業(yè)想象力在于互動(dòng)視頻,更復(fù)雜可交互的音效,是互動(dòng)視頻體驗(yàn)升級(jí)的核心路徑之一。

聲音漂移:IoT環(huán)境下無處不在的聲音

更多時(shí)候,5G不能被看作一個(gè)單獨(dú)的技術(shù)路徑,而是必須與更多技術(shù)突破相結(jié)合,提供網(wǎng)絡(luò)方面的助力。對(duì)于聲音來說,這樣的“5G+”賦能也同樣存在。

比如我們知道,大量生活場景里的IoT設(shè)備,都趨向于取消按鍵和觸屏,而是用智能語音交互作為主要控制入口。

這也意味著,大量家庭生活與車載場景里的IoT設(shè)備,都將攜帶發(fā)聲設(shè)備。那么在5G環(huán)境下,這些設(shè)備將獲得更好的聯(lián)接效果與硬件虛擬化能力。聲音也就可以在這些設(shè)備之間更好傳輸。

或許不久的未來,我們可以期待這樣的場景:客廳中用電視追劇的你,要起身去運(yùn)動(dòng),然后去廚房搞點(diǎn)吃的。在執(zhí)行這個(gè)非常符合減肥需求的行動(dòng)同時(shí),你并不想停止追劇,至少也要聽個(gè)聲音。那么你可以把電視的聲音扔到運(yùn)動(dòng)耳機(jī)上,運(yùn)動(dòng)之后再把耳機(jī)的聲音扔到廚房的音箱,或者干脆扔到冰箱、燃?xì)庠钌稀?/p>

IoT體系下的聲音無縫體驗(yàn),并不僅僅意味著用戶可以指揮聲音到處游走,同時(shí)也意味著設(shè)備對(duì)用戶聲音的識(shí)別、理解與交互能力。每個(gè)設(shè)備和用戶說過什么話,學(xué)習(xí)到了什么東西,都需要體系化共享與再學(xué)習(xí),這都需要建立在強(qiáng)大網(wǎng)絡(luò)環(huán)境上。5G和wifi6,目前看來是這一能力的網(wǎng)絡(luò)基礎(chǔ)基石。

IoT必須擁有更多能力,而聲音正是其中之一。

算法即聲音:AI+5G賦能音頻

或許關(guān)注AI領(lǐng)域的朋友有這樣一個(gè)感覺,新聞里的AI語音能力越來越神奇,什么聲音克隆、情緒識(shí)別、機(jī)器對(duì)話,都非常強(qiáng)力。但落到自己的手機(jī)和音箱上,總感覺有點(diǎn)傻傻的?

這里面有一個(gè)核心問題,就是算力和網(wǎng)絡(luò)環(huán)境不達(dá)標(biāo),龐大的深度學(xué)習(xí)模型沒法在現(xiàn)有條件下跑在終端設(shè)備上。雖然類似問題出現(xiàn)在機(jī)器視覺領(lǐng)域更多,但隨著這兩年語音模型飛速發(fā)展,算力和網(wǎng)絡(luò)能力不足,優(yōu)秀算法不能落到用戶終端的問題,也開始出現(xiàn)在了語音領(lǐng)域。

所以5G給音頻的賦能,另一個(gè)想象力在于跟AI結(jié)合。

未來,我們聽見的機(jī)器聲音和其他人傳遞過來的音頻,很有可能已經(jīng)經(jīng)過了大量算法“美化”。聲音界更具欺詐性的“喬碧蘿殿下”可謂指日可待。

相對(duì)需要5G網(wǎng)絡(luò)加持的語音算法應(yīng)用,包括機(jī)器音的實(shí)時(shí)美化和情緒修飾、聲音克隆、多模態(tài)語義理解等等。另一方面,在5G網(wǎng)絡(luò)下,AI也將有條件更好理解用戶的聲音,并從中產(chǎn)生更多玩法和商業(yè)化價(jià)值。

5G即將到來,升級(jí)網(wǎng)絡(luò)環(huán)境和眾多新網(wǎng)絡(luò)特性,對(duì)于各產(chǎn)業(yè)都將帶來不同的升級(jí)效果。對(duì)于內(nèi)容創(chuàng)作者來說,5G是新的畫板。無論你的創(chuàng)作載體是聲音、視頻、游戲,或者想象中的其他形式,5G都是一個(gè)新的機(jī)遇。