中文題目:基于音頻感知身份補(bǔ)償?shù)囊淮涡哉f(shuō)話(huà)人頭生成
論文題目:One-shot Talking Head Generation with Audio-aware Identity Compensation
錄用期刊:第五屆物聯(lián)網(wǎng)、人工智能與機(jī)械自動(dòng)化國(guó)際學(xué)術(shù)會(huì)議 (IoTAIMA)(EI)
作者列表:
1)袁瑞鴻 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 計(jì)算機(jī)技術(shù) 碩22
2)王智廣 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)系 教授
摘要:
生成說(shuō)話(huà)頭像的主要目標(biāo)是基于輸入音頻信號(hào)和人物的源圖像合成逼真且富有表現(xiàn)力的視頻。這涉及到創(chuàng)建一個(gè)動(dòng)態(tài)、同步且視覺(jué)上令人信服的人物表示,當(dāng)人物表述提供的音頻內(nèi)容時(shí),這些表示在圖像中會(huì)相應(yīng)展現(xiàn)出來(lái)。然而,生成視頻中存在偽像,如嘴巴區(qū)域模糊、面部特征扭曲以及頭部和嘴唇運(yùn)動(dòng)不穩(wěn)定等問(wèn)題。上述缺陷可歸結(jié)為唇部未同步以及面部表示不足,這將極大地降低生成的說(shuō)話(huà)頭像視頻的質(zhì)量。為了解決這個(gè)問(wèn)題,我們提出了一種基于一次音頻感知的說(shuō)話(huà)頭像生成架構(gòu),稱(chēng)為AaICNet,該架構(gòu)通過(guò)學(xué)習(xí)的全局面部特征進(jìn)行補(bǔ)償。我們使用AaICNet從隨機(jī)給定的音頻中獲得唇部同步的音頻嵌入,然后驅(qū)動(dòng)肖像隨著輸入音頻進(jìn)行說(shuō)話(huà)。具體來(lái)說(shuō),我們首先構(gòu)建了一個(gè)音頻編碼器和面部編碼器來(lái)提取音頻特征和面部特征,并將它們合并成一個(gè)混合特征。為了準(zhǔn)確塑造嘴唇運(yùn)動(dòng),我們訓(xùn)練了一個(gè)強(qiáng)大的唇部同步鑒別器來(lái)生成驅(qū)動(dòng)視頻。在完成中間說(shuō)話(huà)者訓(xùn)練階段后,我們選擇得分最高的LSE-C的人作為下一階段訓(xùn)練的驅(qū)動(dòng)圖像。然后我們引入了一個(gè)有效的補(bǔ)償模塊,該模塊計(jì)算全局面部結(jié)構(gòu)并豐富變形后的源圖像以供后續(xù)生成。大量實(shí)驗(yàn)表明,我們所提出的架構(gòu)可以穩(wěn)定地處理說(shuō)話(huà)頭像生成任務(wù),并能在生成視頻的視覺(jué)質(zhì)量和唇部同步準(zhǔn)確性之間取得良好的平衡。
背景與動(dòng)機(jī):
唇形編輯是指在視頻處理和圖像合成中,用聲音信號(hào)將人物或虛擬角色的嘴部運(yùn)動(dòng)進(jìn)行人為改變的技術(shù)。例如給定源視頻(source video),再給定驅(qū)動(dòng)音頻(driving audio),那么得到的輸出是源視頻人物以驅(qū)動(dòng)音頻的音色和說(shuō)話(huà)內(nèi)容講話(huà),其唇部運(yùn)動(dòng)方式是與該音頻對(duì)應(yīng)的。
基于唇形編輯的說(shuō)話(huà)頭像的驅(qū)動(dòng)技術(shù)的發(fā)展,促進(jìn)了數(shù)字媒體時(shí)代中虛擬人物和人機(jī)交互體驗(yàn)的進(jìn)步。在數(shù)字人物生成領(lǐng)域,通過(guò)應(yīng)用包括深度學(xué)習(xí)在內(nèi)的人工智能技術(shù),數(shù)字人物已經(jīng)逐漸擁有了更加逼真的外觀(guān)和動(dòng)態(tài)表現(xiàn)。近些年,這一趨勢(shì)在各種領(lǐng)域中都體現(xiàn)出來(lái),從娛樂(lè)產(chǎn)業(yè)中的游戲角色、虛擬主播,到商業(yè)應(yīng)用中的虛擬銷(xiāo)售都能看到其影響。
設(shè)計(jì)與實(shí)現(xiàn):
一次音頻感知身份補(bǔ)償?shù)恼f(shuō)話(huà)頭像生成網(wǎng)絡(luò)分為三部分:
(1)中間說(shuō)話(huà)人生成模塊:這個(gè)模塊輸入一個(gè)下半部分被遮擋的面部序列幀,然后將其與同長(zhǎng)度的未遮擋面部序列進(jìn)行連接,作為面部編碼器的輸入。未遮擋的面部序列提供姿勢(shì)先驗(yàn),以指導(dǎo)后續(xù)的重建過(guò)程。該模塊主要是一個(gè)生成器-判別器架構(gòu)。模型中包含面部編碼器、音頻編碼器和面部解碼器,每個(gè)組件由一系列卷積層組成。具體而言,音頻編碼器對(duì)輸入音頻片段進(jìn)行編碼,而面部編碼器對(duì)隨機(jī)參考幀進(jìn)行編碼。我們獨(dú)特的損失函數(shù)結(jié)合了余弦相似度和二元交叉熵?fù)p失。接著,我們計(jì)算面部嵌入和音頻嵌入之間的點(diǎn)積,以指示音頻和嘴唇嵌入的同步概率。接下來(lái),我們將音頻嵌入和面嵌入拼接作為解碼器的輸入,經(jīng)過(guò)解碼器生成中間說(shuō)話(huà)頭像。如下圖所示。

(2)最優(yōu)中間說(shuō)話(huà)人選擇模塊。在面部數(shù)據(jù)上經(jīng)過(guò)大量訓(xùn)練后,中間說(shuō)話(huà)者生成模塊會(huì)產(chǎn)生許多由音頻驅(qū)動(dòng)的說(shuō)話(huà)者化身。但并非所有這些化身對(duì)我們都有用。在最優(yōu)中間說(shuō)話(huà)者選擇模塊中,我們計(jì)算具有最佳唇部同步誤差置信度(LSE-C)的圖像,并保留此圖像作為下一個(gè)模塊的驅(qū)動(dòng)化身。
(3)面部特征補(bǔ)償模塊。該模塊首先接收最優(yōu)中間說(shuō)話(huà)者選擇模塊生成的圖像(一次只接收一張)作為驅(qū)動(dòng)圖像和源圖像。關(guān)鍵點(diǎn)檢測(cè)器首先檢測(cè)驅(qū)動(dòng)圖像和源圖像的關(guān)鍵點(diǎn)對(duì)D和S,然后這些關(guān)鍵點(diǎn)配對(duì)將被用于估計(jì)D和S之間的光流(motion flow)。并利用該光流對(duì)第i個(gè)通道中的編碼源臉特征進(jìn)行扭曲(warp),生成扭曲特征。將源圖像的這些關(guān)鍵點(diǎn)變寬,然后與扭曲的源特征連接在一起,然后送入多層感知機(jī)生成隱式的身份表示。我們從扭曲特征中提取數(shù)量是實(shí)際一半的特征并進(jìn)行卷積變換以產(chǎn)生投影特征。我們訓(xùn)練了一個(gè)全局人臉記憶存儲(chǔ)單元(memory bank),可以根據(jù)作為查詢(xún)條件的來(lái)對(duì)人臉進(jìn)行細(xì)節(jié)補(bǔ)償。此外,我們采用交叉注意力機(jī)制來(lái)補(bǔ)償扭曲的源特征。記憶產(chǎn)生k、q、v以對(duì)投影特征進(jìn)行條件處理。
總體結(jié)構(gòu)如下圖所示

實(shí)驗(yàn)結(jié)果及分析:
我們?cè)?/span>VoxCeleb1和HDTF上評(píng)估我們的AaICNet,這兩個(gè)數(shù)據(jù)集分別是低視覺(jué)質(zhì)量數(shù)據(jù)集和高視覺(jué)數(shù)據(jù)集。VoxCeleb1包含有1251個(gè)說(shuō)話(huà)人臉視頻,而HDTF包含有430個(gè)高分辨率的說(shuō)話(huà)人臉視頻。我們?cè)赩oxCeleb1上訓(xùn)練我們的AaICNet并在HDTF上進(jìn)行測(cè)試。我們利用結(jié)構(gòu)相似性(SSIM)、峰值信噪比(PSNR)和感知圖像塊相似性(LPIPS)指標(biāo)來(lái)評(píng)估低級(jí)相似性和感知相似性。同時(shí),為了驗(yàn)證我們的架構(gòu)是否能夠生成準(zhǔn)確的唇部運(yùn)動(dòng),我們還使用唇部同步誤差距離(LSE-D)和唇部同步誤差置信度(LSE-C)作為我們的評(píng)價(jià)指標(biāo)。下圖為與其他四個(gè)不同的方法在HDTF數(shù)據(jù)集上的表現(xiàn)對(duì)比,進(jìn)一步證明了我們的方法的有效性。

結(jié)論:
本研究對(duì)當(dāng)前的說(shuō)話(huà)人(talking head)生成方法進(jìn)行了重新審視,針對(duì)唇形同步問(wèn)題和面部補(bǔ)償問(wèn)題進(jìn)行了深入研究。通過(guò)引入唇形同步模塊對(duì)輸出的說(shuō)話(huà)人的音頻效果進(jìn)行約束,同時(shí)提出了中間人選擇機(jī)制,來(lái)保證輸出最終說(shuō)話(huà)人與源說(shuō)話(huà)人的身份一致性和結(jié)構(gòu)相似性,同時(shí)還提出了全局面部特征記憶庫(kù),以解決之前生成的面部表情的缺陷問(wèn)題。實(shí)驗(yàn)結(jié)果表明,我們的框架可以創(chuàng)建one-shot說(shuō)話(huà)人肖像,同時(shí)具備精確的唇部動(dòng)作和更高的保真度。本研究為后續(xù)對(duì)數(shù)字人領(lǐng)域的進(jìn)一步研究提供了參考和對(duì)照。
通訊作者簡(jiǎn)介:
王智廣,教授,博士生導(dǎo)師,北京市教學(xué)名師。中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)高級(jí)會(huì)員,全國(guó)高校實(shí)驗(yàn)室工作研究會(huì)信息技術(shù)專(zhuān)家指導(dǎo)委員會(huì)委員,全國(guó)高校計(jì)算機(jī)專(zhuān)業(yè)(本科)實(shí)驗(yàn)教材與實(shí)驗(yàn)室環(huán)境開(kāi)發(fā)專(zhuān)家委員會(huì)委員,北京市計(jì)算機(jī)教育研究會(huì)常務(wù)理事。長(zhǎng)期從事分布式并行計(jì)算、三維可視化、計(jì)算機(jī)視覺(jué)、知識(shí)圖譜方面的研究工作,主持或承擔(dān)國(guó)家重大科技專(zhuān)項(xiàng)子任務(wù)、國(guó)家重點(diǎn)研發(fā)計(jì)劃子課題、國(guó)家自然科學(xué)基金、北京市教委科研課題、北京市重點(diǎn)實(shí)驗(yàn)室課題、地方政府委托課題以及企業(yè)委托課題20余項(xiàng),在國(guó)內(nèi)外重要學(xué)術(shù)會(huì)議和期刊上合作發(fā)表學(xué)術(shù)論文70余篇,培養(yǎng)了100余名碩士博士研究生。