換臉效果不夠真實(shí),能讓你看出破綻?看看北大和微軟的研究者如何生成更加真實(shí)的換臉效果,如何解決遮擋、光線(xiàn)等各種問(wèn)題。
那么怎樣才能生成轉(zhuǎn)換更自然,效果更真實(shí)的換臉視頻?這就是這篇論文的研究目的,研究者新模型不僅感官上更真實(shí),同時(shí)還保留了比其它前沿方法更多的個(gè)人特征。
下面我們先看看效果:
研究者同時(shí)從網(wǎng)絡(luò)上下載人臉圖像以展示 FaceShifter 的強(qiáng)大能力。如圖 11 所示,新方法可以處理不同情況下(如夸張的動(dòng)作、非常見(jiàn)光照以及極其復(fù)雜的面部遮擋)的人臉圖像。
研究者此次提出了一種新型的兩段式框架——FaceShifter。這個(gè)框架可以完成高保真的換臉過(guò)程,在面部有遮擋時(shí)依然可以很好地工作。不像那些只利用有限信息就完成換臉任務(wù)的框架,該框架中的第一部分就自適應(yīng)地整合了目標(biāo)圖像的所有屬性以生成高保真的換臉圖片。
此外,研究者提出了一種新型的屬性編碼器以提取人臉圖像的多級(jí)屬性,同時(shí)提出了一種基于 Adaptive Attentional Denormalization (AAD) 的新型生成器,自適應(yīng)地整合人臉合成時(shí)所需的特征和屬性。
為了解決臉部遮擋的問(wèn)題,研究者在框架中加入了第二部分——Heuristic Error Acknowledging Refinement Network (HEAR-Net)。這個(gè)網(wǎng)絡(luò)通過(guò)自監(jiān)督的方式,在沒(méi)有人工標(biāo)注的情況下實(shí)現(xiàn)異常區(qū)域的修復(fù)。
下面,讓我們看看這種高逼真度的換臉到底是怎么樣的。
論文:FaceShifter: Towards High Fidelity And Occlusion Aware Face Swapping
論文地址:https://arxiv.org/pdf/1912.13457.pdf
換臉的缺陷與改進(jìn)
換臉技術(shù)就是將目標(biāo)圖像中人臉的面部特征替換為源圖像人臉的對(duì)應(yīng)部分,同時(shí)還要保留一些如頭部動(dòng)作、臉部表情、光線(xiàn)、背景等基本屬性。由于這一技術(shù)在電影合成、電腦游戲以及隱私保護(hù)等方面有很廣泛的應(yīng)用前景,這一技術(shù)已經(jīng)廣泛引起了視覺(jué)和圖像領(lǐng)域的關(guān)注。
最近,基于 GAN 的一些工作已經(jīng)取得了很不錯(cuò)的結(jié)果。但是,如何生成真實(shí)且保真的圖像依舊是個(gè)很大的難題。
因此我們這項(xiàng)工作的重點(diǎn)之一就是提高換臉后圖像的保真度。為了讓結(jié)果在感官上更具吸引力,如何讓合成的換臉圖像無(wú)縫融入新臉,同時(shí)保持原有姿勢(shì)表情,這就是我們要研究的重點(diǎn)。也就是說(shuō),換臉圖像的渲染應(yīng)當(dāng)忠于目標(biāo)圖像的光線(xiàn)(方向,強(qiáng)度,顏色等),被交換的臉也應(yīng)該跟目標(biāo)圖像有相同的分辨率。
這些都不是僅僅 Alpha 或是 Poisson 混合能夠解決的,我們真正需要的是讓換臉過(guò)程可以自適應(yīng)地繼承目標(biāo)圖像完整屬性信息,這樣目標(biāo)圖像的屬性(亮度、分辨率等)就可以讓換臉后的圖像變得更加真實(shí)。
然而,以前的方法要么忽略了這一需求,要么就是無(wú)法自適應(yīng)或者完整地集成這些信息。具體來(lái)說(shuō),以往的許多方法僅利用目標(biāo)圖像的姿態(tài)和表情來(lái)指導(dǎo)換臉過(guò)程,然后利用目標(biāo)人臉 Mask 將人臉混合到目標(biāo)圖像中。這一過(guò)程容易產(chǎn)生一些缺陷,因?yàn)椋?/p>
1)在合成換臉圖像時(shí),除了姿態(tài)和表情外,對(duì)目標(biāo)圖像的了解很少,很難保證場(chǎng)景光照或圖像分辨率等目標(biāo)屬性不發(fā)生變化;2)這樣的混合將丟棄位于目標(biāo) Mask 外部的源面部特征。
因此,這些方法不能保持源標(biāo)識(shí)的面形,我們?cè)趫D 2 中展示了一些典型的失敗案例。
1)我們提出了一種新的多級(jí)屬性編碼器,用于提取各種空間分辨率下的目標(biāo)屬性,而不是像 RSGAN[28] 和 IPGAN[5] 那樣將其壓縮成單個(gè)向量;
2)提出了一種有 Adaptive Attentional Denormalization(AAD) 層的新型生成器器,該發(fā)生器自適應(yīng)地學(xué)習(xí)了在何處集成屬性以及特征的嵌入。與 RSGAN[28]、FSNet[27] 和 IPGAN[5] 的單級(jí)集成相比,這種自適應(yīng)集成為結(jié)果帶來(lái)了相當(dāng)大的改進(jìn)。
通過(guò)這兩個(gè)改進(jìn),我們提出的 AEI-Net 可以解決圖 2 中光照不一致和人臉形狀不一致的問(wèn)題。
此外,處理面部的遮擋一直是換臉的挑戰(zhàn)。Nirkin 等人的方法中對(duì)人臉進(jìn)行分割并訓(xùn)練以使其能感知到臉部的遮擋部分,我們的方法可以以一種自監(jiān)督的方式學(xué)習(xí)恢復(fù)人臉異常區(qū)域,而且不需要任何人工標(biāo)注。我們觀察到,當(dāng)把同一張人臉圖像同時(shí)作為目標(biāo)圖像和源圖像,并輸入到一個(gè)訓(xùn)練良好的 AEI 網(wǎng)絡(luò)時(shí),重建的人臉圖像跟輸入圖像有多處改變,這些改變所在的位置基本上就是臉部遮擋的區(qū)域。
因此,我們提出了一種新的 Heuristic Error Acknowledging Refinement Network (HEAR-Net),在這種重構(gòu)誤差的指導(dǎo)下進(jìn)一步精化結(jié)果。重要的是,這個(gè)方法不止是能修正臉部遮擋,它還可以識(shí)別很多其他的異常類(lèi)型,如眼鏡、陰影和反射效應(yīng)。
我們提出的兩段式換臉框架 FaceShifter 與場(chǎng)景無(wú)關(guān)。一旦訓(xùn)練完成,該模型就可以應(yīng)用于任何新的人臉對(duì),而不需要像 DeepFakes 和 Korshunova 等人的 [21] 那樣找特定的受試者訓(xùn)練。實(shí)驗(yàn)結(jié)果表明,與其他先進(jìn)的方法相比,我們的方法獲得的結(jié)果更真實(shí)、更可靠。
FaceShifter 模型什么樣
我們的方法需要輸入兩張圖像——提供人臉特征的源圖像 X_s 以及提供動(dòng)作、表情、光線(xiàn)、背景等屬性的目標(biāo)圖像 X_t。最終的換臉圖像是通過(guò)兩段式框架 FaceShifter 生成的。在第一階段中, 我們的 AEINet 自適應(yīng)地基于集成信息生成了一個(gè)高保真的換臉結(jié)果
。在第二階段,我們使用 Heuristic Error Acknowledging Network (HEARNet) 來(lái)處理面部遮擋,并對(duì)結(jié)果進(jìn)行改進(jìn),最后的結(jié)果用
表示。
自適應(yīng)嵌入集成網(wǎng)絡(luò)(Adaptive Embedding Integration Network)
在第一階段,我們希望生成一個(gè)高保真(擁有源圖像 X_s 特征,且保留目標(biāo)圖像 X_t 動(dòng)作等屬性)的人臉圖像。為了達(dá)到這一目標(biāo),我們的方法包含三個(gè)模塊:
i)從源圖像中抽取特征的特征編碼器 z_id(X_s);
ii)從目標(biāo)圖像 X_t 抽取屬性的多級(jí)屬性編碼器 z_att(X_t);
iii)基于 Adaptive Attentional Denormalization (AAD) 生成換臉圖像的生成器。
啟發(fā)式誤差修正網(wǎng)絡(luò)(Heuristic Error Acknowledging Refinement Network)
盡管 AEINet 第一階段的換臉結(jié)果
已經(jīng)能很好的獲取目標(biāo)圖像的動(dòng)作、表情、光照等屬性,但是當(dāng)目標(biāo)臉部圖像 Xt 中對(duì)臉部有遮擋時(shí),這種遮擋就很難被繼承下來(lái)。為了解決這個(gè)問(wèn)題,過(guò)去的一些方法 [30,29] 加入了一個(gè)新的臉部分割網(wǎng)絡(luò)。這個(gè)網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)需要進(jìn)行大量標(biāo)注(哪一部分有遮擋),而且這種有監(jiān)督方式可能很難識(shí)別出未知的遮擋方式。
對(duì)于面部遮擋問(wèn)題,我們提出了一種啟發(fā)式的方法。如圖 4(a) 所示,當(dāng)目標(biāo)圖像中的臉被遮擋時(shí)(頭發(fā)或是帽子上的鐵鏈),有一部分遮擋會(huì)在換臉過(guò)程中小時(shí)。同時(shí),我們發(fā)現(xiàn),就算我們把同一張圖同時(shí)作為源圖像和目標(biāo)圖像輸入給訓(xùn)練好的 AEI-Net,這種遮擋還是會(huì)在重建的圖像中消失。此時(shí)這種輸出與輸入的誤差,就可以作為我們定位面部遮擋的依據(jù),我們把這種依據(jù)叫做輸入圖像的啟發(fā)式錯(cuò)誤,因?yàn)檫@個(gè)誤差啟發(fā)性的表征了異常發(fā)生的位置。
實(shí)驗(yàn)效果怎么樣
與過(guò)去方法的比較
1. 定性對(duì)比
圖 5 展示了我們?cè)?FaceForensics++數(shù)據(jù)集上與 FaceSwap [2], Nirkin et al. [30], DeepFakes [1] 和 IPGAN [5] 的比較。

由于 FaceSwap [2], Nirkin et al. [30], DeepFakes [1] 和 IPGAN [5] 的策略都是先生成臉部區(qū)域圖像,然后將其嵌入到目標(biāo)臉中,我們可以從比較中明顯的看出這些方法的嵌入誤差。
這些方法生成的所有人臉與其目標(biāo)人臉有著完全相同的人臉輪廓,而且源人臉的形狀也被忽略了(圖 5 第 1-4 行及圖 6 第 1-2 行)。除此之外, 他們的研究結(jié)果一定程度上忽略了目標(biāo)圖像的一些重要信息,如光照(圖 5 第 3 行,圖 6 第 3 – 5 行),圖像分辨率(圖 5 第 2 行和第 4 行)。由于 IPGAN[5] 的矩陣只描述了單一級(jí)別的屬性,因此其所有樣本都顯示出了分辯率下降的問(wèn)題。同時(shí),IPGAN 也不能很好地保存目標(biāo)面部的表情,如閉上的眼睛(圖 5 第 2 行)。
我們的方法很好地解決了所有這些問(wèn)題,實(shí)現(xiàn)了更高的保真度——保留了源人臉(而非過(guò)去的目標(biāo)人臉)的臉部輪廓,且保證了目標(biāo)圖像(而非過(guò)去的源人臉)的光線(xiàn)與圖像分辨率。我們的方法在處理面部遮擋問(wèn)題上的表現(xiàn)甚至可以超過(guò) FSGAN [29]。
2. 定量對(duì)比
我們使用不同的人臉識(shí)別模型 [41] 提取特征向量,并采用余弦相似度來(lái)度量特征差距。我們從 FaceForensics++的原始視頻中為每個(gè)測(cè)試集中的換臉結(jié)果匹配了一張最接近的臉,以檢查這張臉是否屬于正確的源視頻。表 1 中的 ID 就是使用該方法獲得的平均準(zhǔn)確率,這個(gè)方法可以用來(lái)測(cè)試特征保留能力。我們提出的框架獲得了更高的 ID 分?jǐn)?shù),且檢索范圍很大。
3. 人為評(píng)估
我們做了三次用戶(hù)調(diào)研,以評(píng)測(cè)本模型的表現(xiàn)。我們讓用戶(hù)從以下選項(xiàng)中選擇:i)與源臉最相似的圖像;ii)與目標(biāo)圖像有最相似動(dòng)作、表情、光照的圖像;iii)最真實(shí)的圖像。
表 2 展示了每個(gè)方法在其研究中的平均被選取率。這個(gè)結(jié)果現(xiàn)實(shí)我們的模型在大范圍上超過(guò)了其余三個(gè)模型。
框架分析

圖 8:在不同特征級(jí)上,AAD 層中基于注意力機(jī)制的 Mask Mk 可視化。

