應用

技術

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點新聞
企業(yè)注冊個人注冊登錄

我國語音技術如何實現(xiàn)彎道超車?

2020-08-20 13:57 中國家電網(wǎng)

導讀:語音科技,就是一個美國不愿意讓我們發(fā)展的太快的科技。

語音科技,就是一個美國不愿意讓我們發(fā)展的太快的科技。國內的語音科技“一哥”科大訊飛,就在去年10月被美國“拉黑”了,當時科大訊飛的很多開發(fā)平臺使用的都是美國芯片,被“拉黑”后,在美國的很多實驗室也被迫關閉。

如果你覺得,美國最近在中美科技戰(zhàn)中過于針對華為和Tiktok,那你就錯了。隨著中美在科技層面的交鋒與沖突不斷升級,美國商務部開出的實體清單也是一瀉千里。5月23日,實體清單上又多出了33家中國公司,大都為科技公司、科研機構。截至5月底,美國實體清單上的中國公司、個人、甚至還有幾所大學,總數(shù)多達1373家,整整309頁PDF文件。

遙想去年5月,這個清單上62個國家和地區(qū)的實體,總共只有1182個。其中俄羅斯以316個實體位居第一,中國只有233個實體上榜,其中80個在香港。

所謂“實體清單”,是美國的出口管制手段。在沒有許可證的情況下,美國任何企業(yè)不得向清單上的實體出口任何東西,也不能幫助這些實體進口任何東西。1997年6月,“實體清單”面世4個月后,中國工程物理研究院,成為了清單上的第一個中國實體。

20多年過去,實體清單已經(jīng)從美國的出口保護手段,變成了阻礙別國科技發(fā)展的打擊手段。

語音科技,就是一個美國不愿意讓我們發(fā)展的太快的科技。

國內的語音科技“一哥”科大訊飛,就在去年10月被美國“拉黑”了,當時科大訊飛的很多開發(fā)平臺使用的都是美國芯片,被“拉黑”后,在美國的很多實驗室也被迫關閉。

不過,在同期被“拉黑”的公司中,科大訊飛算是最淡定的。當時科大訊飛發(fā)布公告稱,其人工智能核心技術都是自主研發(fā),而且語音科技在硬件方面對芯片的要求并不是特別高,找到替代品或者自己研發(fā),問題都不大。

本周三,科大訊飛董事長再次提及公司被加入實體名單一事,他表示,目前科大訊飛已經(jīng)有了28nm制程的自研芯片,完全無懼被美國芯片卡脖子。

另一方面,由于谷歌在重壓之下已經(jīng)不再給華為提供語音助手服務,這個服務將由科大訊飛接手??拼笥嶏w不僅能穩(wěn)穩(wěn)地接住華為,提供的服務還更好,在歐洲各主要語種方面都能超越谷歌。

可能是受到科大訊飛的自信影響,周五語音技術板塊5支股票全線拉升??拼笥嶏w收漲5.05%,是近兩個月內的最大單日漲幅。

雖然目前語音技術的研究方向主要放在專業(yè)領域的語音錄入,比如醫(yī)院、法院等,需要記錄的專業(yè)詞匯多、而且要絕對精準的領域。但是語音技術離我們日常生活最近的應用,正是已經(jīng)非常成熟的手機助手和日漸普及的智能家居。

語音技術的起步,是語音識別。語音識別技術主要是把人類的語音內容轉換成計算機可讀的輸入,不一定是文本,也可能是編碼或者符號。

由于語音交互提供了更自然、更便利、更高效的溝通形式,成為人機互動的主要輸入方法,只是時間問題。

目前,主流語音識別框架還是由 3 個部分組成:聲學模型、語言模型和解碼器。其中,聲學模型是熱門的研究方向,也就是業(yè)界跑馬圈地的方向。

語音識別沒有什么技術壁壘,就比誰的算法更準,因此國內外各大企業(yè)前赴后繼的發(fā)布著新的聲學模型,刷新各個數(shù)據(jù)庫的識別記錄。

由于中文方言的博大精深,語音識別的復雜性基本拉滿。因此,在聲學模型方面的研究進展較其他國家都要快一些。在其他國家把英文識別做到了最好的時候,科大訊飛已經(jīng)可以識別中、英、粵三語混說的輸入了。

事實上,語音識別技術在2010年前后,碰到了天花板,識別率達到了90%,并且難以突破。直到深度學習技術被應用到了語音識別中,識別精度才突破了90%,在安靜環(huán)境下的識別精度直逼98%。

從此,語音識別領域的產(chǎn)業(yè)競爭從研發(fā)轉為了應用。而在語音識別的精度普遍都能達標之后,語音識別也失去了獨立存在的價值,開始更多的為提升其他產(chǎn)品的體驗而服務。

也就是這個時候,語音識別相關產(chǎn)品,比如Siri,開始走進人們的視線。不過,Siri們的出現(xiàn)所引起的關注程度,遠比實戰(zhàn)成績要高的多。Siri面世的時候,谷歌CEO憂心忡忡,認為它會對谷歌的搜索業(yè)務產(chǎn)生根本性的威脅。