論文題目:基于粒子群優(yōu)化對(duì)比學(xué)習(xí)和多模態(tài)糾纏圖卷積的頭部姿態(tài)估計(jì)
錄用期刊:IET Image Processing (中科院SCI 4區(qū), JCR Q3)
錄用時(shí)間:2024年6月3日
作者列表:
1) 連遠(yuǎn)鋒 中國(guó)石油大學(xué)(北京)信息科學(xué)與工程學(xué)院/人工智能學(xué)院 計(jì)算智能教學(xué)與研究中心教師
2) 師印亮 中國(guó)石油大學(xué)(北京)信息科學(xué)與工程學(xué)院/人工智能學(xué)院 人工智能專(zhuān)業(yè) 碩22
3) 劉兆年 中海油研究總院有限責(zé)任公司 高級(jí)工程師
4) 姜 彬 中海油研究總院有限責(zé)任公司 高級(jí)工程師
5) 李興濤 中國(guó)石油國(guó)際勘探開(kāi)發(fā)有限公司 高級(jí)工程師
摘要:
由于從二維特征空間到三維姿態(tài)空間的非線(xiàn)性映射的復(fù)雜性,頭部姿態(tài)估計(jì)是一項(xiàng)特別具有挑戰(zhàn)性的任務(wù)。為了解決上述問(wèn)題,本文提出了一種基于粒子群優(yōu)化對(duì)比學(xué)習(xí)(PSO-CL)和多模態(tài)糾纏態(tài)圖卷積網(wǎng)絡(luò)(MEGCN)的高效頭部姿態(tài)估計(jì)框架。首先,提出了一種新的二維關(guān)鍵點(diǎn)檢測(cè)網(wǎng)絡(luò)——區(qū)域和差分感知特征金字塔網(wǎng)絡(luò)(RD-FPN),以減輕背景干擾,增強(qiáng)特征表達(dá)能力。然后,構(gòu)造PSO-CL交替匹配二維和三維關(guān)鍵點(diǎn),以多模態(tài)關(guān)鍵點(diǎn)匹配精度作為優(yōu)化目標(biāo),同時(shí)考慮對(duì)比學(xué)習(xí)的交叉模態(tài)正、負(fù)樣本對(duì)的相似性作為局部對(duì)比約束。最后,設(shè)計(jì)MEGCN網(wǎng)絡(luò)并嵌入二階雙線(xiàn)性注意來(lái)增強(qiáng)關(guān)鍵點(diǎn)與頭部姿態(tài)角度之間幾何關(guān)系的表達(dá)能力,引入點(diǎn)-邊注意來(lái)改進(jìn)多模態(tài)關(guān)鍵點(diǎn)之間的幾何特征的表示。在300W-LP、AFLW2000、BIWI數(shù)據(jù)集上,與其他方法相比,我們的方法的平均誤差降低了8.23%,表明本文方法的準(zhǔn)確性、泛化性和效率。
背景與動(dòng)機(jī):
頭部姿態(tài)估計(jì)是計(jì)算機(jī)視覺(jué)的一個(gè)重要任務(wù),已廣泛應(yīng)用于各個(gè)領(lǐng)域,如人機(jī)交互、視頻監(jiān)控、虛擬現(xiàn)實(shí)、面部表情識(shí)別,凝視估計(jì)和行為理解等。頭部姿態(tài)估計(jì)方法主要可分為傳統(tǒng)的估計(jì)方法和基于深度學(xué)習(xí)的估計(jì)方法。早期傳統(tǒng)估計(jì)方法往往采用外觀(guān)模板方法,估計(jì)結(jié)果精度較低,魯棒性較差。近年來(lái),利用卷積神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征提取能力,采用深度學(xué)習(xí)的方法來(lái)估計(jì)頭部姿態(tài)。雖然已經(jīng)取得了顯著的改進(jìn),但由于圖像中二維和三維的相互關(guān)系信息挖掘難度大,導(dǎo)致兩者之間的精確映射關(guān)系難以建立,使得從二維空間到三維姿態(tài)的估計(jì)難以獲得良好的結(jié)果。
主要內(nèi)容:
模型結(jié)構(gòu)
頭部姿態(tài)估計(jì)網(wǎng)絡(luò)的結(jié)構(gòu)框架如圖1所示。首先,將圖像輸入到RD-FPN中,生成關(guān)鍵點(diǎn)熱圖。采用基于積分回歸的方法提取二維關(guān)鍵點(diǎn),通過(guò)三維人臉重建模型3DFRM,利用二維關(guān)鍵點(diǎn)信息生成初始的三維人臉點(diǎn)云模型。其次,設(shè)計(jì)了基于粒子群優(yōu)化PSO-CL的對(duì)比學(xué)習(xí)方法,用于二維和三維關(guān)鍵點(diǎn)位置的交互匹配。最后,提出了一個(gè)基于二階雙線(xiàn)性注意的多模態(tài)糾纏圖卷積網(wǎng)絡(luò)MEGCN來(lái)糾纏二維和三維關(guān)鍵點(diǎn)特征。將糾纏特征輸入到全連接層中,獲得頭部姿態(tài)角。

圖1 頭部姿態(tài)估計(jì)網(wǎng)絡(luò)的結(jié)構(gòu)框架
為了提高二維和三維關(guān)鍵點(diǎn)的匹配精度,提出了一種基于粒子群優(yōu)化的對(duì)比學(xué)習(xí)交互匹配算法PSO-CL,如圖2所示。為了避免通過(guò)對(duì)比學(xué)習(xí)陷入局部最優(yōu),同時(shí)提供有效的局部交互特征,這里充分利用PSO在非線(xiàn)性空間中的全局搜索能力來(lái)探索最優(yōu)匹配參數(shù)。

圖2 基于粒子群優(yōu)化的對(duì)比學(xué)習(xí)交互匹配算法
由于難以捕獲多模態(tài)特征之間的相關(guān)性,我們提出了一種基于二階雙線(xiàn)性注意的多模態(tài)糾纏圖卷積網(wǎng)絡(luò)MEGCN,如圖3所示。MEGCN可以有效地集成這兩種多模態(tài)信息,通過(guò)多模態(tài)全局特征交互塊在不同模態(tài)之間傳輸信息,并通過(guò)局部特征糾纏塊將多模態(tài)全局交互信息整合到當(dāng)前的局部圖中。同時(shí),引入點(diǎn)邊緣注意,以提高局部特征表達(dá)能力。

圖3 基于二階雙線(xiàn)性注意的多模態(tài)糾纏圖卷積網(wǎng)絡(luò)
實(shí)驗(yàn)結(jié)果及分析:
為了定量地評(píng)估我們的方法的準(zhǔn)確性,表1和表2顯示了最先進(jìn)的方法和我們的方法與AFLW2000和BIWI數(shù)據(jù)集的MAE。粗體表示每一列中的最小值。結(jié)果表明,我們建立的關(guān)鍵點(diǎn)和頭部姿態(tài)之間的非線(xiàn)性關(guān)系更穩(wěn)健。在BIWI-train數(shù)據(jù)集上重新訓(xùn)練該模型,并在BIWI-test數(shù)據(jù)集上進(jìn)行測(cè)試。實(shí)驗(yàn)結(jié)果見(jiàn)表3,表明所提模型的性能最優(yōu)。可以看到,本文模型在所有數(shù)據(jù)集上都達(dá)到了最低的總體MAE,并且在單個(gè)數(shù)據(jù)集上也表現(xiàn)良好。
表1 在AFLW2000數(shù)據(jù)集上的實(shí)驗(yàn)比較結(jié)果
(所有模型均在300W-LP訓(xùn)練集上進(jìn)行訓(xùn)練)

表2 在BIWI數(shù)據(jù)集上的實(shí)驗(yàn)比較結(jié)果
(所有模型均在300W-LP訓(xùn)練集上進(jìn)行訓(xùn)練)
表3 在BIWI數(shù)據(jù)集上的實(shí)驗(yàn)比較結(jié)果
(BIWI數(shù)據(jù)中70%數(shù)據(jù)作為訓(xùn)練集,30%作為測(cè)試集)
圖4可視化了BIWI數(shù)據(jù)集上的二維和三維關(guān)鍵點(diǎn)的匹配結(jié)果。結(jié)果表明,該模型對(duì)不同角度的關(guān)鍵點(diǎn)匹配具有很強(qiáng)的魯棒性。

圖4 BIWI數(shù)據(jù)集的二維和三維關(guān)鍵點(diǎn)匹配的示例
圖5顯示了不同方法在AFLW20002000、BIWI和BIWI-test數(shù)據(jù)集上的結(jié)果??梢钥闯?,本文模型能夠合理地估計(jì)各種頭部姿態(tài)。

圖5 AFLW20002000、BIWI和BIWI-test數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果
結(jié)論:
本文提出了一種新的具有區(qū)域和差分感知機(jī)制的特征金字塔網(wǎng)絡(luò),從RGB人臉圖像中檢測(cè)二維關(guān)鍵點(diǎn),以提供平面信息,進(jìn)而提高三維人臉重建的質(zhì)量。在此基礎(chǔ)上,構(gòu)建粒子群優(yōu)化的對(duì)比學(xué)習(xí),通過(guò)二維和三維關(guān)鍵點(diǎn)的交替匹配,實(shí)現(xiàn)跨模態(tài)關(guān)鍵點(diǎn)重定位,將粒子群優(yōu)化的全局搜索能力與對(duì)比學(xué)習(xí)的局部特征交互能力相結(jié)合,獲得魯棒結(jié)果。最后,提出了二階雙線(xiàn)性注意圖卷積來(lái)糾纏多模態(tài)特征,利用多模態(tài)信息的互補(bǔ)性來(lái)增強(qiáng)面臉關(guān)鍵點(diǎn)的幾何分布與頭部姿態(tài)角度之間關(guān)系的探索能力。
雖然我們已經(jīng)顯著提高了該方法的評(píng)估精度,但在實(shí)際應(yīng)用中仍有一些局限性,特別是在極具挑戰(zhàn)性的條件下捕獲的頭部姿勢(shì)。由于大模型顯著的視覺(jué)理解能力和強(qiáng)大的特征表示能力,未來(lái)將嘗試將大型視覺(jué)模型應(yīng)用于頭部姿態(tài)估計(jì)。
作者簡(jiǎn)介:
連遠(yuǎn)鋒,教授,碩士生導(dǎo)師。研究方向?yàn)閳D像處理與虛擬現(xiàn)實(shí)、機(jī)器視覺(jué)與機(jī)器人、深度學(xué)習(xí)與數(shù)字孿生。