久久久3P,无码视频在线

谷歌研發(fā)開源揚聲器Diarization AI技術(shù)

2018-11-27 14:24 前瞻網(wǎng)

導(dǎo)讀：在最近的一篇博客中，谷歌宣布他們已經(jīng)開源了他們的揚聲器Diarization技術(shù)，該技術(shù)能夠以高準(zhǔn)確率區(qū)分人們的聲音。谷歌可以通過將包含多個參與者的音頻流劃分為每個參與者的同質(zhì)段來實現(xiàn)這一點。

在最近的一篇博客中，谷歌宣布他們已經(jīng)開源了他們的揚聲器Diarization技術(shù)，該技術(shù)能夠以高準(zhǔn)確率區(qū)分人們的聲音。谷歌可以通過將包含多個參與者的音頻流劃分為每個參與者的同質(zhì)段來實現(xiàn)這一點。

將語音劃分成同質(zhì)段有許多應(yīng)用。谷歌的研究科學(xué)家Chong Wang解釋說:

通過解決“誰說了什么時候”的問題，說話人二值化在許多重要場景中都有應(yīng)用，如理解醫(yī)療對話、視頻字幕等。

能夠準(zhǔn)確地分割會話可以提高在線和離線Diarization系統(tǒng)的質(zhì)量。這種好處在醫(yī)療保健行業(yè)有很多實際的好處，正如最近的年報家庭醫(yī)學(xué)雜志報道的那樣:

醫(yī)生通常在11個小時的工作日里花6個小時在電子健康檔案(EHR)上。因此，一項研究發(fā)現(xiàn)，接受調(diào)查的醫(yī)生中，超過一半的人報告至少有一種倦怠癥狀。

使用監(jiān)督學(xué)習(xí)方法來訓(xùn)練語音聽寫系統(tǒng)在歷史上一直具有挑戰(zhàn)性，Wang解釋了原因:

使用監(jiān)督學(xué)習(xí)方法對這些系統(tǒng)進(jìn)行訓(xùn)練是具有挑戰(zhàn)性的——與標(biāo)準(zhǔn)的監(jiān)督分類任務(wù)不同，穩(wěn)健的Diarization模型需要將新個體與未參與訓(xùn)練的不同語音片段關(guān)聯(lián)起來。重要的是，這限制了在線和離線Diarization系統(tǒng)的質(zhì)量。

在流媒體音頻輸入上使用在線揚聲器Diarization，可以檢測不同揚聲器，如下圖所示，在底部軸上用不同顏色表示不同的揚聲器。

谷歌開發(fā)了一篇名為《Fully Supervised Speaker Diarization》的研究論文，他們引入了一種新的模型，這種模型比傳統(tǒng)方法更有效地使用監(jiān)督揚聲器標(biāo)簽。在這個模型中，會進(jìn)行一個評估，確定參與會話的說話者的數(shù)量，從而增加標(biāo)記數(shù)據(jù)的數(shù)量。

作為NIST SRE 2000 CALLHOME基準(zhǔn)測試的一部分，谷歌的技術(shù)實現(xiàn)了低至7.6%的Diarization錯誤率，其中Diarization錯誤率被定義為“被Diarization輸出錯誤標(biāo)記的輸入信號的百分比”。最近的結(jié)果是對基于聚類的方法獲得的8.8%的Diarization錯誤率和使用深度神經(jīng)網(wǎng)絡(luò)嵌入方法獲得的9.9%Diarization錯誤率進(jìn)行了改進(jìn)。

現(xiàn)代揚聲器Diarization系統(tǒng)通常利用聚類算法，如k均值或光譜聚類。Wang解釋了使用這些方法的一些缺點:

由于這些聚類方法是非監(jiān)督的，不能很好地利用數(shù)據(jù)中可用的監(jiān)督說話人標(biāo)簽。此外，在線聚類算法通常在流媒體音頻輸入的實時Diarization應(yīng)用中質(zhì)量較差。該模型與常用聚類算法的關(guān)鍵區(qū)別在于，該方法采用參數(shù)共享遞歸神經(jīng)網(wǎng)絡(luò)(RNN)對所有說話人的嵌入進(jìn)行建模，并利用在時域內(nèi)交叉的不同RNN狀態(tài)，對不同的說話人進(jìn)行區(qū)分。

為了說明這個模型是如何工作的，考慮4個不同的揚聲器(該模型可以支持未知數(shù)量的揚聲器)，每個揚聲器都用自己的顏色(藍(lán)色、黃色、粉色和綠色)表示。每個揚聲器都有自己的RNN實例，其中初始狀態(tài)在所有揚聲器之間共享。一個演講者將繼續(xù)更新他們的RNN，直到另一個演講者開始講話。例如，藍(lán)色的音箱可以開始對話，直到它轉(zhuǎn)換到黃色音箱為止。在這兩個時間段內(nèi)，每個發(fā)言者在發(fā)言時都會更新他們的RNN。當(dāng)對話從一個發(fā)言者轉(zhuǎn)換到另一個發(fā)言者時，所有參與者都會出現(xiàn)這種情況。

Wang解釋了為什么使用RSS狀態(tài)很重要:

將說話人表示為RNN狀態(tài)使我們能夠使用RNN參數(shù)學(xué)習(xí)不同說話人和話語之間共享的高級知識，這保證了更多標(biāo)記數(shù)據(jù)的有用性。與此相反，常見的聚類算法幾乎總是獨立地處理單個話語，因此很難從大量標(biāo)記數(shù)據(jù)中獲益。

下一步，谷歌將繼續(xù)降低Diarization錯誤率，整合上下文信息進(jìn)行離線解碼。為了進(jìn)一步了解揚聲器Diarization技術(shù)，谷歌發(fā)表了一篇論文，并在GitHub上提供了它的源代碼。

谷歌研發(fā)開源揚聲器Diarization AI技術(shù)

相關(guān)閱讀