99热门精品一区二区三区无码,五月激情综合,精品久久久久久无码不卡

人臉識別技術(shù)介紹和表情識別最新研究

2020-11-11 09:42 3D視覺工坊

導(dǎo)讀：人臉識別主要包括一對一或者一對多的應(yīng)用場景，對目標(biāo)人臉進行識別和驗證。

一、人臉識別技術(shù)介紹

人臉識別作為一種生物特征識別技術(shù)，具有非侵擾性、非接觸性、友好性和便捷性等優(yōu)點。早在二十世紀(jì)初期，人臉識別已經(jīng)出現(xiàn)，于二十世紀(jì)中期，發(fā)展成為獨立的學(xué)科。人臉識別真正進入應(yīng)用階段是在90年代后期。人臉識別屬于人臉匹配的領(lǐng)域，人臉匹配的方法主要包括特征表示和相似性度量。

人臉識別通用的流程主要包括人臉檢測、人臉裁剪、人臉校正、特征提取和人臉識別。人臉檢測是從獲取的圖像中去除干擾，提取人臉信息，獲取人臉圖像位置，檢測的成功率主要受圖像質(zhì)量，光線強弱和遮擋等因素影響。獲取人臉后，人臉裁剪是根據(jù)實際需求，裁剪部分或整體的人臉，進一步精確化人臉圖像。為提高人臉識別準(zhǔn)確率，人臉校正可以盡可能的降低由于姿態(tài)和表情導(dǎo)致的人臉變化，獲取正面或者平靜狀態(tài)下的人臉照片。特征提取利用不同的特征，對圖片進行相似度的衡量和評價。人臉識別主要包括一對一或者一對多的應(yīng)用場景，對目標(biāo)人臉進行識別和驗證。

人臉表達模型主要分為2D，2.5D，3D。2D人臉指的是RGB，灰度和紅外圖像，是確定視角下表征顏色或紋理的圖像，不包括深度信息。2.5D是在某一視角下拍攝獲取的人臉深度數(shù)據(jù)，但是曲面信息不連續(xù)，沒有被遮擋部分的深度數(shù)據(jù)信息。3D人臉由多張不同角度的深度圖像合成，具有完整連續(xù)的曲面信息，包含深度信息。2D圖像人臉識別的研究時間較長，軟硬件技術(shù)較為完備，得到了廣泛的應(yīng)用。但是由于2D圖像反映二維平面信息，不包含深度數(shù)據(jù)，不能夠完整的表達出真實人臉模型。相比于二維人臉圖像，三維圖像不受光照等影響，具有更強的描述能力，能夠更為真實的反映人臉信息，在人臉合成、人臉遷移、三維人臉識別等場景中應(yīng)用。3D人臉識別一般采用深度相機獲取人臉深度信息，主要包括雙目相機，基于結(jié)構(gòu)光原理的RGB-D相機和基于光飛行時間原理的TOF相機。常見的三維人臉識別算法主要包括傳統(tǒng)識別方法和深度學(xué)習(xí)識別方法。

1.傳統(tǒng)識別方法

(1)基于點云數(shù)據(jù)的人臉識別

點云是3D人臉數(shù)據(jù)的一種表征方式，每一個點都對應(yīng)一個三維坐標(biāo)，掃描設(shè)備使用這種數(shù)據(jù)格式存儲采集的三維人臉信息，甚至可以將稀疏坐標(biāo)也拼接到形狀信息上，更為完善的反映人臉信息?；邳c云數(shù)據(jù)的3D人臉識別直接使用三維點云進行匹配，常見方法有ICP(Iterative Closest Point)和Hausdorff距離。前者可以修正點云信息中平移和旋轉(zhuǎn)變換的誤差，后者利用三維點云之間的距離最大值，匹配人臉，但是兩者均存在魯棒性不足的問題。

(2)基于面部特征的3D人臉識別

人臉的面部特征主要包括局部特征和全局特征，局部特征可以選擇從深度圖像上提取關(guān)于面部關(guān)鍵點的特征信息，全局特征是對整張人臉進行變換提取特征，例如球面諧波特征或者稀疏系數(shù)特征。

2.深度學(xué)習(xí)識別方法

(1)基于深度圖的人臉識別

深度圖像中三維數(shù)據(jù)的z值被投影至二維平面，形成平滑的三維曲面?？墒褂脷w一化網(wǎng)絡(luò)和特征提取網(wǎng)絡(luò)實現(xiàn)深度圖人臉識別，歸一化網(wǎng)絡(luò)將輸入的深度圖像轉(zhuǎn)化為HHA圖像，再使用卷積神經(jīng)網(wǎng)絡(luò)回歸用于獲取歸一化深度圖的參數(shù)，特征提取網(wǎng)絡(luò)用于獲取表征深度圖人臉的特征向量。

(2)基于RGB-3DMM的人臉識別

3DMM是指三維人臉變形統(tǒng)計模型，其最早是用于解決從二維人臉圖像恢復(fù)三維形狀的問題，現(xiàn)多被用于對深度圖像或彩色圖像進行人臉模型回歸，實現(xiàn)識別任務(wù)。

(3)基于RGB-D的人臉識別

RGB-D圖像是包含了彩色圖像和深度圖，前者是從紅、綠、藍顏色通道獲取的圖像，后者是指包含與視點的場景對象的表面的距離有關(guān)的圖像通道，兩者之間是相互配準(zhǔn)。通過對彩色圖像和多幀融合后的深度圖像分別進行預(yù)訓(xùn)練和遷移學(xué)習(xí)，在特征層進行融合，提高人臉識別率。

二、表情識別最新研究

1) Facial Emotion Recognition with Noisy Multi-task Annotations

摘要

從面部表情可以推斷出人類的情感。但是，在常見的情感編碼模型中，包括分類和維度模型，面部表情的注釋通常會非常嘈雜。為了減少人為標(biāo)注多任務(wù)標(biāo)簽的工作量，文中引入了帶有嘈雜的多任務(wù)注釋的面部表情識別新問題。對于這個新問題，文中建議從聯(lián)合分布匹配的角度進行計算，其目的是學(xué)習(xí)原始人臉圖像和多任務(wù)標(biāo)簽之間更可靠的關(guān)聯(lián)，從而減少噪聲影響。采用一種新方法來在統(tǒng)一的對抗性學(xué)習(xí)游戲中啟用情緒預(yù)測和聯(lián)合分布學(xué)習(xí)。在廣泛的實驗中進行的評估研究了所提出的新問題的實際設(shè)置，以及所提出的方法在合成嘈雜的帶標(biāo)簽CIFAR-10或?qū)嶋H嘈雜的多點干擾方法上優(yōu)于最新競爭方法的明顯優(yōu)勢標(biāo)記為RAF和AffectNet的任務(wù)。

本文探討的是嘈雜的多任務(wù)標(biāo)簽中面部表情識別的問題。實際應(yīng)用中，兩種最常用的面部情緒編碼模型是分類和維數(shù)，但是通過從可用的情感標(biāo)簽中進行模型的學(xué)習(xí)容易產(chǎn)生不好的結(jié)果，因此，文中提出的公式是從聯(lián)合分布匹配的角度解決此問題的，旨在利用數(shù)據(jù)和多任務(wù)標(biāo)簽之間的相關(guān)性來減少標(biāo)簽噪聲的影響。

該文為解決人臉情感識別的實際案例提供了一些貢獻，主要可概括為以下三點：(1)提出了一個帶有嘈雜的多任務(wù)標(biāo)簽的面部表情識別新問題，該問題的目標(biāo)是易于獲得的廉價多任務(wù)注釋；(2)提出了一種廣義化的公式，在數(shù)據(jù)和異構(gòu)多任務(wù)標(biāo)簽之間具有明確的聯(lián)合和邊際分布匹配；(3)引入了一種新的對抗學(xué)習(xí)模型，以基于聯(lián)合和邊際分布的約束條件來優(yōu)化對情緒預(yù)測的訓(xùn)練，這被證明適合于新提出的問題。

帶有噪音標(biāo)簽的面部情感識別僅在帶有噪音標(biāo)簽的面部圖像上訓(xùn)練魯棒模型。傳統(tǒng)的方法是直接用噪聲標(biāo)簽分布對噪聲建模，但是傳統(tǒng)的條件概率建模具有幾個明顯的缺點，例如轉(zhuǎn)換矩陣缺乏約束條件收斂到真值等。針對于此，本文利用匹配兩個聯(lián)合分布的關(guān)鍵思想，考慮在兩對數(shù)據(jù)和標(biāo)簽上的以下兩個聯(lián)合概率分布：

由于對現(xiàn)實世界數(shù)據(jù)的數(shù)據(jù)分布的顯式概率密度函數(shù)進行建模難以計算，因此將兩個聯(lián)合分布與精確建模進行匹配通常是不可行的。為克服該問題，本文采用了生成對抗模型方法。其中，編碼器的學(xué)習(xí)函數(shù)以從輸入圖像中推斷出干凈的標(biāo)簽，解碼器的學(xué)習(xí)函數(shù)以生成面部圖像，來自嘈雜標(biāo)簽的對應(yīng)表達式。整體架構(gòu)如下圖所示

為了匹配編碼器和解碼器捕獲的聯(lián)合分布，在生成器和鑒別器之間進行對抗游戲。鑒別器是專門為匹配面部圖像，噪聲矢量以及GY和GX的多任務(wù)標(biāo)簽的組的聯(lián)合分布而設(shè)計。對于聯(lián)合分布對齊，一種自然的方法是將分別從編碼器和解碼器采樣的數(shù)據(jù)在網(wǎng)絡(luò)中以進行對抗訓(xùn)練。但是，每個組中的數(shù)據(jù)是高度異構(gòu)的，因此直接串聯(lián)是不合適的。為了減少數(shù)據(jù)和多任務(wù)標(biāo)簽之間的異質(zhì)性，本文采用多個網(wǎng)絡(luò)流，并將所有網(wǎng)絡(luò)流的輸出送入網(wǎng)絡(luò)，完整的目標(biāo)函數(shù)如下，

文中提出的生成器和鑒別器能夠在統(tǒng)一框架內(nèi)優(yōu)化基于情緒預(yù)測的損失和基于分布匹配的約束。文中根據(jù)此方案設(shè)計了最小—最大目標(biāo)函數(shù)：

在該文中，由于將面部情感識別視為目標(biāo)任務(wù)，因此將情感預(yù)測用作輔助任務(wù)，從而從圖像到標(biāo)簽的關(guān)系和任務(wù)到任務(wù)的關(guān)系中使目標(biāo)任務(wù)受益，該算法如下圖所示。

文中在兩種情況下對該模型進行評估：(1)用于圖像分類的合成噪聲標(biāo)簽數(shù)據(jù)集(CIFAR-10 [25])；(2)用于面部表情識別的兩個實用的面部表情數(shù)據(jù)集(RAF和AffectNet)。

下圖為實驗1的結(jié)果，可見采用文中提出的模型使得準(zhǔn)確率得到提高。

下圖為基線和在訓(xùn)練步驟中提出的模型的測試準(zhǔn)確性曲線的可視化呈現(xiàn)。

下圖為實驗2的面部情緒數(shù)據(jù)集的評估結(jié)果，可知在多任務(wù)情況下，運用本文提出的模型獲得的預(yù)測準(zhǔn)確性更高。

本文介紹了一個帶有噪聲的多任務(wù)注釋的面部情緒識別的問題，在減少人為多任務(wù)學(xué)習(xí)的標(biāo)簽工作方面具有很大的應(yīng)用潛力。文中從聯(lián)合分配匹配的角度介紹了一種新的公式，按照該公式，采用一種新的對抗學(xué)習(xí)方法來共同優(yōu)化情緒預(yù)測和聯(lián)合分布學(xué)習(xí)。最后研究了合成噪聲標(biāo)簽數(shù)據(jù)集和實用的噪聲多任務(wù)數(shù)據(jù)庫的建立，并通過對它們的評估證明了該方法在解決新問題方面的明顯優(yōu)勢。

2) THIN: THrowable Information Networks and Application for Facial Expression Recognition In The Wild

摘要

對于使用深度學(xué)習(xí)技術(shù)解決的許多任務(wù)，可以識別一個外生變量，該變量會影響到不同類的外觀，并且理想分類器能夠?qū)Υ俗兞渴冀K保持不變。本文提出了雙重外生/內(nèi)生表示法。文中設(shè)計了一個預(yù)測層，該預(yù)測層使用由外生表示條件限定的深度整體，可以學(xué)習(xí)自適應(yīng)的弱預(yù)測變量的權(quán)重，并且顯式地建模外生變量和預(yù)測任務(wù)之間的依賴關(guān)系。此外，文中提出了外源性消除損失的計算，以從內(nèi)源性表示中刪除外源性信息。因此，外生信息被使用了兩次，第一次是作為目標(biāo)任務(wù)的條件變量，第二次是在內(nèi)生表示中產(chǎn)生不變性。本文將該方法命名為THIN，代表THrowable Information Net-works。本文在幾種可以識別外源信息的情況下，通過實驗驗證了THIN，例如大旋轉(zhuǎn)下的數(shù)字識別和多尺度下的形狀識別。還將其應(yīng)用于以身份為外生變量的FER。特別是證明了THIN在某些具有挑戰(zhàn)性的數(shù)據(jù)集上的性能明顯優(yōu)于最新方法。

深度學(xué)習(xí)技術(shù)在計算機視覺的監(jiān)督學(xué)習(xí)中取得了重大進展，允許共同學(xué)習(xí)一種表示形式和基于這種表示形式的預(yù)測變量。完善的深度學(xué)習(xí)技術(shù)構(gòu)成了大多數(shù)計算機視覺問題中的最新方法，例如對象分類或檢測，語義分割或面部和身體分析。然而，在許多此類任務(wù)中，對象的外觀會受到外生變量的嚴(yán)重影響，理想情況下，任務(wù)預(yù)測應(yīng)根據(jù)該變量進行不變。

但是，與此同時，從預(yù)測系統(tǒng)的角度來看，無論外在變量（例如受試者身份）的變化如何，都應(yīng)該預(yù)測我們的目標(biāo)任務(wù)（例如面部表情）。因此，本文認為與任務(wù)相關(guān)的表示（稱為內(nèi)生表示）應(yīng)包含盡可能少的有關(guān)外生變量的信息。

綜上所述，在這種情況下，該外生變量是數(shù)據(jù)變化的重要來源，同時也是信息的來源，從該信息中，預(yù)測變量的輸出應(yīng)盡可能不變。因此，我們建議使用單獨的外在和內(nèi)在表示。

本文的貢獻：(1)提出了一個外生樹狀深度集成方法，該模型使用內(nèi)生和外生雙重網(wǎng)絡(luò)。第一個輸出表示用于預(yù)測任務(wù)，而第二個輸出的表示通過適應(yīng)性和聯(lián)合學(xué)習(xí)更多相關(guān)的弱預(yù)測變量，以進行深度相關(guān)的調(diào)整；(2)提出了一種外源消除損失，通過內(nèi)源表示與外源表示之間的正交性，從內(nèi)源表示中消除外源變異；(3)在具有不同外生變量的多個任務(wù)上實驗性地驗證了這種方法。

文中通過深度神經(jīng)網(wǎng)絡(luò)對外生信息建模，然后從定義一個簡單的基線模型開始，然后逐步引入其他的架構(gòu)，從而描述如何明確地合并外生表示和任務(wù)預(yù)測之間的依賴關(guān)系，整體架構(gòu)如下圖所示。

如上圖所示，主要呈現(xiàn)了基線框架，簡單的深度集成方法框架，樹狀深度集成方法框架，外生樹狀深度集成方法框架。從基線框架開始，通過自適應(yīng)加權(quán)深層集成的預(yù)測并利用外源表示來逐步改進框架的設(shè)計方法。

樹狀深度集成網(wǎng)絡(luò)通過參數(shù)優(yōu)化相應(yīng)的損失，然后將與外生變量有關(guān)的信息分解為內(nèi)生表示中的任務(wù)，并將提取的外生和內(nèi)生的特征輸入網(wǎng)絡(luò)和進行輸出，通過超參數(shù)進行實驗設(shè)置，從而實現(xiàn)從內(nèi)在表征中去除外源性信息。

文中通過將模型在合成數(shù)據(jù)集上進行評估，從中可以清楚地識別外生變量。緊接著，在真實的FER數(shù)據(jù)集中定性和定量驗證模型，主要是介紹了用于訓(xùn)練或測試所提出方法的數(shù)據(jù)集，具體的實現(xiàn)細節(jié)。下圖中Table 2為在MNIST-R和dSprites數(shù)據(jù)集上，根據(jù)平均準(zhǔn)確度比較不同體系結(jié)構(gòu)；Figure 4為MNIST-R以平均準(zhǔn)確度表示的消融外源表征消除的消融研究

除了在MNIST數(shù)據(jù)集上之外，文中還在RAF-DB，AffectNet和ExpW數(shù)據(jù)集上進行了實驗驗證，Table 3從平均準(zhǔn)確率上比較了不同的體系架構(gòu)，F(xiàn)igure 5是在數(shù)據(jù)集RAF-DB上進行消融研究的結(jié)果。

最后將THIN與最新的FER方法進行了比較，證明了THIN在當(dāng)今最新的，具有挑戰(zhàn)性的FER數(shù)據(jù)庫上的性能明顯優(yōu)于最新技術(shù)。

本文中所提出的模型具有較多的應(yīng)用可能性。首先，理論上可以將THIN直接應(yīng)用于其他問題，例如以姿勢或比例作為外生變量的身體姿勢估計，或具有領(lǐng)域信息的語義分割。其次，在本文中僅使用一個外生變量來訓(xùn)練THIN。但是，可以嘗試使用多個這樣的變量和表示網(wǎng)絡(luò)以及某種融合方案來應(yīng)用。此外可以嘗試使用身份作為外生變量的THIN來預(yù)測面部表情，然后使用以面部表情作為外生變量的另一個THIN來預(yù)測身份，依此類推，以迭代地完善FER和身份預(yù)測。

備注：在公眾號「計算機視覺工坊」后臺，回復(fù)「人臉識別技術(shù)」，即可獲得上述兩篇論文。

參考文獻

1、基于深度學(xué)習(xí)的自然場景下多人臉檢測

2、Facial Emotion Recognition with Noisy Multi-task Annotations

3、THIN: THrowable Information Networks and Application for Facial Expression Recognition in the Wild

本文僅做學(xué)術(shù)分享，如有侵權(quán)，請聯(lián)系刪文

人臉識別技術(shù)介紹和表情識別最新研究

相關(guān)閱讀