應(yīng)用

技術(shù)

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點(diǎn)新聞
企業(yè)注冊個(gè)人注冊登錄

以假亂真的AI換臉技術(shù),真的毫無破綻嗎?

2021-05-31 13:33 中科院中國科普博覽

導(dǎo)讀:“魔高一尺,道高一丈”

出品:科普中國

制作:之遙科普

監(jiān)制:中國科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心

從在圍棋界戰(zhàn)無不勝的“阿爾法狗”,到鋪天蓋地的“人臉識(shí)別”,機(jī)器學(xué)習(xí)給人們的生活帶來了翻天覆地的改變。但隨著AI技術(shù)的不斷發(fā)展,以“智能換臉”為主要展現(xiàn)結(jié)果的Deepfake技術(shù),卻給大家的生活帶來了更多困擾。

2018年,加蓬總統(tǒng)Ali Bongo因中風(fēng)在公共視野中消失了數(shù)月。政府為了安撫民心,在新年時(shí)公開了一段總統(tǒng)錄制的新年致辭。這段新年致辭使用了Deepfake技術(shù)進(jìn)行生成,但這個(gè)視頻非但沒有起到安撫民心的作用,反而讓軍方的資深大佬發(fā)現(xiàn)異常,最終導(dǎo)致了兵變。在這個(gè)事件中,“AI換臉”技術(shù)成為干擾政治選舉,降低政府公信力的一大推手。

在很多人的印象中,Deepfake技術(shù)除了能讓有需求的人看到AI換臉的色情小視頻外,似乎都走在社會(huì)的陰影里。

圖1 deepfake圖片(圖片來源:http://zkres1.myzaker.com/)

對普通人而言,Deepfake技術(shù)可謂是以假亂真,毫無破綻。那面對網(wǎng)上流傳的真假不一的視頻,我們真的無法分辨嗎?

不用擔(dān)心,正所謂“魔高一尺,道高一丈”。在專業(yè)人士手中,通過細(xì)致的計(jì)算機(jī)分析,可以辨別出照片、視頻的真假,讓Deepfake技術(shù)處理過的內(nèi)容“現(xiàn)出原形”。

Deepfake技術(shù)的原理就是學(xué)習(xí)學(xué)習(xí)再學(xué)習(xí)

要了解Deepfake技術(shù)如何被識(shí)破,首先就要了解什么是Deepfake技術(shù)。Deepfake是使用深度機(jī)器學(xué)習(xí)(deep machine learning)和假照片(fake photo)組合而成的一個(gè)詞,可以理解為機(jī)器進(jìn)行深度學(xué)習(xí)而制造的假照片、假視頻等虛假產(chǎn)物。其中最常見的應(yīng)用就是“AI換臉”,也就是將一個(gè)人的臉部移植到另一個(gè)人臉上。

在進(jìn)行換臉時(shí),機(jī)器首先需要識(shí)別出人臉的位置。人臉的識(shí)別與校準(zhǔn)在自動(dòng)駕駛等領(lǐng)域也有著廣泛的應(yīng)用,目前的發(fā)展已經(jīng)非常成熟,識(shí)別率在98%以上。

換臉用的素材,與待換臉的視頻中的人臉,他們的面部朝向、面部表情往往不同。因此,識(shí)別出人臉位置之后,機(jī)器要進(jìn)一步對人臉進(jìn)行校準(zhǔn)。通過尋找面部具有鮮明特征的區(qū)域,機(jī)器可以確定每一幀中人臉的朝向、表情,進(jìn)而將待換臉視頻中需要插入的人臉與素材匹配起來。

匹配完成之后,換臉技術(shù)也不是簡單地就把換臉?biāo)夭馁N在了待換臉的人臉上。簡單地貼圖,可以輕松地被肉眼識(shí)別,難以達(dá)到“以假亂真”的效果。Deepfake技術(shù)進(jìn)一步地學(xué)習(xí)原理可以用人的行為來類比。

如果你盯A臉看上100小時(shí),接著去看B臉的照片;接下來讓你憑記憶畫出B的臉,那不管你的技術(shù)水平多高,最終都會(huì)畫的跟A臉很像。所以,當(dāng)我們訓(xùn)練機(jī)器,讓機(jī)器學(xué)習(xí)用A臉的元素畫出B臉時(shí),就可以將A臉逼真地“畫到”B臉上。

圖2 看B畫A(圖片來源:原創(chuàng))

逼真的Deepfake技術(shù)也有小破綻

機(jī)器學(xué)習(xí)出的換臉視頻、照片那么逼真,那Deepfake技術(shù)的破綻何在呢?

中國有句古話叫做“若想人不知,除非己莫為”。換臉技術(shù)的破綻,就出在人臉?biāo)夭牡募?xì)節(jié)上。Deepfake技術(shù)使用A臉的元素來畫出B臉,這一過程是對A臉元素的精巧拼接。而這一拼接的過程,勢必不能完美地符合真實(shí)情況。

紐約州布法羅-布法羅大學(xué)的計(jì)算機(jī)科學(xué)家,就從“眼睛”——這一人臉上最精致的元素入手,實(shí)現(xiàn)了對Deepfake技術(shù)的甄別。

這一技術(shù)的核心原理基于眼球的反射。當(dāng)外界環(huán)境的光照射到眼睛上時(shí),就會(huì)產(chǎn)生反射,在角膜上生成圖像。在真正的照片中,兩只眼睛看同一物體,會(huì)具有非常相似的反射模式。但在Deepfake合成的照片中,兩只眼睛的反射內(nèi)容往往并不協(xié)調(diào)。很可能出現(xiàn)左眼“看見”一只小狗,右眼“看見”一輛卡車的情況。檢測機(jī)器首先提取兩只眼睛反射的內(nèi)容,然后檢測左右眼的反射內(nèi)容、反射光強(qiáng)度等參數(shù)是否協(xié)調(diào)統(tǒng)一,就可以識(shí)別出照片、視頻是否經(jīng)過了合成。這一方法已被證明具有94%的實(shí)驗(yàn)有效性。

除此之外,常見的檢測方法還包括:

(1)根據(jù)視頻的2D圖像估計(jì)三維姿勢。使用Deepfake技術(shù)合成的視頻,三維姿勢可能會(huì)突然發(fā)生較大的突變。比如視頻中的人,如果在上一幀胸口還是鼓起正在吸氣的狀態(tài),下一幀就迅速變成胸口下沉吐氣的狀態(tài),那就說明這個(gè)視頻鐵定是合成出來的。

(2)捕捉Deepfake技術(shù)在處理視頻時(shí)對圖像進(jìn)行扭曲而在環(huán)境中產(chǎn)生的“偽影”。

(3)捕捉左右虹膜異色、光照與陰影不協(xié)調(diào)、幾何建模錯(cuò)誤等瑕疵。

(4)針對名人的行為習(xí)慣,檢測視頻中是否有對應(yīng)的特有行為特點(diǎn)(例如摸鼻子、歪嘴等)。

圖3 deepfake視頻中的虹膜異色(圖片來源:知乎)

Deepfake檢測中的“貓鼠游戲”

在不斷發(fā)展的過程中,Deepfake的檢測技術(shù)仍然會(huì)面對不少挑戰(zhàn)。

第一點(diǎn)是有的技術(shù)本身需要一定的信息量。例如前述的眼球反射檢測技術(shù),如果視頻里沒有同時(shí)存在兩只眼睛,就無法應(yīng)用。針對虹膜顏色的檢測,在視頻畫質(zhì)較低時(shí)使用起來也較為困難。

第二點(diǎn)是,檢測技術(shù)和換臉技術(shù)是一個(gè)“不斷發(fā)展,彼此競爭”的過程。例如前述的捕捉光照與陰影不協(xié)調(diào)的問題,換臉者可以在換臉時(shí)使用更多的資源進(jìn)行光照模擬、渲染,從而保證陰影的生成質(zhì)量。從這個(gè)角度講,檢測和換臉技術(shù)就像一場“貓鼠游戲”,二者不斷迭代,你追我趕。今天檢測技術(shù)提出了用眼球的反射光進(jìn)行檢測,明天換臉技術(shù)就可以把眼球的反射光模擬也放在學(xué)習(xí)內(nèi)容之中。檢測技術(shù)必須不斷更新,才能跟上Deepfake技術(shù)發(fā)展的步伐。

第三點(diǎn)是,檢測技術(shù)距自動(dòng)化還有一定距離。現(xiàn)有的檢測技術(shù)耗費(fèi)的時(shí)間都比較長,難以做到在用戶上傳視頻的同時(shí),短時(shí)間內(nèi)自動(dòng)完成檢測和審核。距實(shí)用的自動(dòng)Deepfake檢測軟件,還有一段路要走。

第四點(diǎn)是,目前針對Deepfake技術(shù)還沒有完善的法規(guī)。各個(gè)視頻平臺(tái)對于什么樣的Deepfake視頻是惡意的、違規(guī)的,有著自己的界定規(guī)則。同時(shí),目前也沒有關(guān)于Deepfake技術(shù)的相關(guān)法律。這就給針對Deepfake視頻的檢測、管控工作帶來了很多困難。

雖然Deepfake檢測技術(shù)仍有諸多挑戰(zhàn),但是我們要相信,隨著AI技術(shù)的不斷發(fā)展,相關(guān)法規(guī)會(huì)逐漸完善,針對Deepfake的檢測技術(shù)也會(huì)變得越來越準(zhǔn)確、高效。終有一天,虛假的視頻會(huì)在檢測技術(shù)的“火眼金睛”下統(tǒng)統(tǒng)現(xiàn)出原形。鉆技術(shù)的漏洞,濫用Deepfake技術(shù),遲早會(huì)受到懲罰。

參考文獻(xiàn)

( Hu S , Li Y , Lyu S . Exposing GAN-generated Faces Using Inconsistent Corneal Specular Highlights[J]. 2020.)