新利国际网上娱乐,美国金沙集团项目介绍,厦门金沙集团老板是谁啊图片大全高清

學(xué)校主頁(yè)

您所在的位置：首頁(yè) - 科學(xué)研究 - 科研動(dòng)態(tài)

科研動(dòng)態(tài)

基于音頻感知身份補(bǔ)償?shù)囊淮涡哉f(shuō)話(huà)人頭生成

日期：2024-10-21 | 訪(fǎng)問(wèn)量：

中文題目：基于音頻感知身份補(bǔ)償?shù)囊淮涡哉f(shuō)話(huà)人頭生成

論文題目：One-shot Talking Head Generation with Audio-aware Identity Compensation

錄用期刊：第五屆物聯(lián)網(wǎng)、人工智能與機(jī)械自動(dòng)化國(guó)際學(xué)術(shù)會(huì)議 (IoTAIMA）（EI）

作者列表：

1）袁瑞鴻中國(guó)石油大學(xué)（北京）人工智能學(xué)院計(jì)算機(jī)技術(shù) 碩22

2）王智廣中國(guó)石油大學(xué)（北京）人工智能學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)系教授

摘要:

生成說(shuō)話(huà)頭像的主要目標(biāo)是基于輸入音頻信號(hào)和人物的源圖像合成逼真且富有表現(xiàn)力的視頻。這涉及到創(chuàng)建一個(gè)動(dòng)態(tài)、同步且視覺(jué)上令人信服的人物表示，當(dāng)人物表述提供的音頻內(nèi)容時(shí)，這些表示在圖像中會(huì)相應(yīng)展現(xiàn)出來(lái)。然而，生成視頻中存在偽像，如嘴巴區(qū)域模糊、面部特征扭曲以及頭部和嘴唇運(yùn)動(dòng)不穩(wěn)定等問(wèn)題。上述缺陷可歸結(jié)為唇部未同步以及面部表示不足，這將極大地降低生成的說(shuō)話(huà)頭像視頻的質(zhì)量。為了解決這個(gè)問(wèn)題，我們提出了一種基于一次音頻感知的說(shuō)話(huà)頭像生成架構(gòu)，稱(chēng)為AaICNet，該架構(gòu)通過(guò)學(xué)習(xí)的全局面部特征進(jìn)行補(bǔ)償。我們使用AaICNet從隨機(jī)給定的音頻中獲得唇部同步的音頻嵌入，然后驅(qū)動(dòng)肖像隨著輸入音頻進(jìn)行說(shuō)話(huà)。具體來(lái)說(shuō)，我們首先構(gòu)建了一個(gè)音頻編碼器和面部編碼器來(lái)提取音頻特征和面部特征，并將它們合并成一個(gè)混合特征。為了準(zhǔn)確塑造嘴唇運(yùn)動(dòng)，我們訓(xùn)練了一個(gè)強(qiáng)大的唇部同步鑒別器來(lái)生成驅(qū)動(dòng)視頻。在完成中間說(shuō)話(huà)者訓(xùn)練階段后，我們選擇得分最高的LSE-C的人作為下一階段訓(xùn)練的驅(qū)動(dòng)圖像。然后我們引入了一個(gè)有效的補(bǔ)償模塊，該模塊計(jì)算全局面部結(jié)構(gòu)并豐富變形后的源圖像以供后續(xù)生成。大量實(shí)驗(yàn)表明，我們所提出的架構(gòu)可以穩(wěn)定地處理說(shuō)話(huà)頭像生成任務(wù)，并能在生成視頻的視覺(jué)質(zhì)量和唇部同步準(zhǔn)確性之間取得良好的平衡。

背景與動(dòng)機(jī):

唇形編輯是指在視頻處理和圖像合成中，用聲音信號(hào)將人物或虛擬角色的嘴部運(yùn)動(dòng)進(jìn)行人為改變的技術(shù)。例如給定源視頻（source video），再給定驅(qū)動(dòng)音頻（driving audio），那么得到的輸出是源視頻人物以驅(qū)動(dòng)音頻的音色和說(shuō)話(huà)內(nèi)容講話(huà)，其唇部運(yùn)動(dòng)方式是與該音頻對(duì)應(yīng)的。

基于唇形編輯的說(shuō)話(huà)頭像的驅(qū)動(dòng)技術(shù)的發(fā)展，促進(jìn)了數(shù)字媒體時(shí)代中虛擬人物和人機(jī)交互體驗(yàn)的進(jìn)步。在數(shù)字人物生成領(lǐng)域，通過(guò)應(yīng)用包括深度學(xué)習(xí)在內(nèi)的人工智能技術(shù)，數(shù)字人物已經(jīng)逐漸擁有了更加逼真的外觀(guān)和動(dòng)態(tài)表現(xiàn)。近些年，這一趨勢(shì)在各種領(lǐng)域中都體現(xiàn)出來(lái)，從娛樂(lè)產(chǎn)業(yè)中的游戲角色、虛擬主播，到商業(yè)應(yīng)用中的虛擬銷(xiāo)售都能看到其影響。

設(shè)計(jì)與實(shí)現(xiàn):

一次音頻感知身份補(bǔ)償?shù)恼f(shuō)話(huà)頭像生成網(wǎng)絡(luò)分為三部分：

（1）中間說(shuō)話(huà)人生成模塊：這個(gè)模塊輸入一個(gè)下半部分被遮擋的面部序列幀，然后將其與同長(zhǎng)度的未遮擋面部序列進(jìn)行連接，作為面部編碼器的輸入。未遮擋的面部序列提供姿勢(shì)先驗(yàn)，以指導(dǎo)后續(xù)的重建過(guò)程。該模塊主要是一個(gè)生成器-判別器架構(gòu)。模型中包含面部編碼器、音頻編碼器和面部解碼器，每個(gè)組件由一系列卷積層組成。具體而言，音頻編碼器對(duì)輸入音頻片段進(jìn)行編碼，而面部編碼器對(duì)隨機(jī)參考幀進(jìn)行編碼。我們獨(dú)特的損失函數(shù)結(jié)合了余弦相似度和二元交叉熵?fù)p失。接著，我們計(jì)算面部嵌入和音頻嵌入之間的點(diǎn)積，以指示音頻和嘴唇嵌入的同步概率。接下來(lái)，我們將音頻嵌入和面嵌入拼接作為解碼器的輸入，經(jīng)過(guò)解碼器生成中間說(shuō)話(huà)頭像。如下圖所示。

（2）最優(yōu)中間說(shuō)話(huà)人選擇模塊。在面部數(shù)據(jù)上經(jīng)過(guò)大量訓(xùn)練后，中間說(shuō)話(huà)者生成模塊會(huì)產(chǎn)生許多由音頻驅(qū)動(dòng)的說(shuō)話(huà)者化身。但并非所有這些化身對(duì)我們都有用。在最優(yōu)中間說(shuō)話(huà)者選擇模塊中，我們計(jì)算具有最佳唇部同步誤差置信度（LSE-C）的圖像，并保留此圖像作為下一個(gè)模塊的驅(qū)動(dòng)化身。

（3）面部特征補(bǔ)償模塊。該模塊首先接收最優(yōu)中間說(shuō)話(huà)者選擇模塊生成的圖像（一次只接收一張）作為驅(qū)動(dòng)圖像和源圖像。關(guān)鍵點(diǎn)檢測(cè)器首先檢測(cè)驅(qū)動(dòng)圖像和源圖像的關(guān)鍵點(diǎn)對(duì)D和S，然后這些關(guān)鍵點(diǎn)配對(duì)將被用于估計(jì)D和S之間的光流（motion flow）。并利用該光流對(duì)第i個(gè)通道中的編碼源臉特征進(jìn)行扭曲（warp），生成扭曲特征。將源圖像的這些關(guān)鍵點(diǎn)變寬，然后與扭曲的源特征連接在一起，然后送入多層感知機(jī)生成隱式的身份表示。我們從扭曲特征中提取數(shù)量是實(shí)際一半的特征并進(jìn)行卷積變換以產(chǎn)生投影特征。我們訓(xùn)練了一個(gè)全局人臉記憶存儲(chǔ)單元（memory bank），可以根據(jù)作為查詢(xún)條件的來(lái)對(duì)人臉進(jìn)行細(xì)節(jié)補(bǔ)償。此外，我們采用交叉注意力機(jī)制來(lái)補(bǔ)償扭曲的源特征。記憶產(chǎn)生k、q、v以對(duì)投影特征進(jìn)行條件處理。

總體結(jié)構(gòu)如下圖所示

實(shí)驗(yàn)結(jié)果及分析:

我們?cè)?/span>VoxCeleb1和HDTF上評(píng)估我們的AaICNet，這兩個(gè)數(shù)據(jù)集分別是低視覺(jué)質(zhì)量數(shù)據(jù)集和高視覺(jué)數(shù)據(jù)集。VoxCeleb1包含有1251個(gè)說(shuō)話(huà)人臉視頻，而HDTF包含有430個(gè)高分辨率的說(shuō)話(huà)人臉視頻。我們?cè)赩oxCeleb1上訓(xùn)練我們的AaICNet并在HDTF上進(jìn)行測(cè)試。我們利用結(jié)構(gòu)相似性（SSIM）、峰值信噪比（PSNR）和感知圖像塊相似性（LPIPS）指標(biāo)來(lái)評(píng)估低級(jí)相似性和感知相似性。同時(shí)，為了驗(yàn)證我們的架構(gòu)是否能夠生成準(zhǔn)確的唇部運(yùn)動(dòng)，我們還使用唇部同步誤差距離（LSE-D）和唇部同步誤差置信度（LSE-C）作為我們的評(píng)價(jià)指標(biāo)。下圖為與其他四個(gè)不同的方法在HDTF數(shù)據(jù)集上的表現(xiàn)對(duì)比，進(jìn)一步證明了我們的方法的有效性。

結(jié)論:

本研究對(duì)當(dāng)前的說(shuō)話(huà)人（talking head）生成方法進(jìn)行了重新審視，針對(duì)唇形同步問(wèn)題和面部補(bǔ)償問(wèn)題進(jìn)行了深入研究。通過(guò)引入唇形同步模塊對(duì)輸出的說(shuō)話(huà)人的音頻效果進(jìn)行約束，同時(shí)提出了中間人選擇機(jī)制，來(lái)保證輸出最終說(shuō)話(huà)人與源說(shuō)話(huà)人的身份一致性和結(jié)構(gòu)相似性，同時(shí)還提出了全局面部特征記憶庫(kù)，以解決之前生成的面部表情的缺陷問(wèn)題。實(shí)驗(yàn)結(jié)果表明，我們的框架可以創(chuàng)建one-shot說(shuō)話(huà)人肖像，同時(shí)具備精確的唇部動(dòng)作和更高的保真度。本研究為后續(xù)對(duì)數(shù)字人領(lǐng)域的進(jìn)一步研究提供了參考和對(duì)照。

通訊作者簡(jiǎn)介:

王智廣，教授，博士生導(dǎo)師，北京市教學(xué)名師。中國(guó)計(jì)算機(jī)學(xué)會(huì)（CCF）高級(jí)會(huì)員，全國(guó)高校實(shí)驗(yàn)室工作研究會(huì)信息技術(shù)專(zhuān)家指導(dǎo)委員會(huì)委員，全國(guó)高校計(jì)算機(jī)專(zhuān)業(yè)（本科）實(shí)驗(yàn)教材與實(shí)驗(yàn)室環(huán)境開(kāi)發(fā)專(zhuān)家委員會(huì)委員，北京市計(jì)算機(jī)教育研究會(huì)常務(wù)理事。長(zhǎng)期從事分布式并行計(jì)算、三維可視化、計(jì)算機(jī)視覺(jué)、知識(shí)圖譜方面的研究工作，主持或承擔(dān)國(guó)家重大科技專(zhuān)項(xiàng)子任務(wù)、國(guó)家重點(diǎn)研發(fā)計(jì)劃子課題、國(guó)家自然科學(xué)基金、北京市教委科研課題、北京市重點(diǎn)實(shí)驗(yàn)室課題、地方政府委托課題以及企業(yè)委托課題20余項(xiàng)，在國(guó)內(nèi)外重要學(xué)術(shù)會(huì)議和期刊上合作發(fā)表學(xué)術(shù)論文70余篇，培養(yǎng)了100余名碩士博士研究生。

金沙娱乐场官方网-澳门金沙会官网-金沙集团股价实情信息最新

科研動(dòng)態(tài)

基于音頻感知身份補(bǔ)償?shù)囊淮涡哉f(shuō)話(huà)人頭生成