金沙集团是上市公司吗,君豪娱乐城,现金真钱轮盘

學(xué)校主頁(yè)

您所在的位置：首頁(yè) - 科學(xué)研究 - 科研動(dòng)態(tài)

科研動(dòng)態(tài)

基于粒子群優(yōu)化對(duì)比學(xué)習(xí)和多模態(tài)糾纏圖卷積的頭部姿態(tài)估計(jì)

日期：2024-06-05 | 訪(fǎng)問(wèn)量：

論文題目：基于粒子群優(yōu)化對(duì)比學(xué)習(xí)和多模態(tài)糾纏圖卷積的頭部姿態(tài)估計(jì)

錄用期刊：IET Image Processing (中科院SCI 4區(qū), JCR Q3)

錄用時(shí)間：2024年6月3日

作者列表：

1）連遠(yuǎn)鋒中國(guó)石油大學(xué)（北京）信息科學(xué)與工程學(xué)院/人工智能學(xué)院計(jì)算智能教學(xué)與研究中心教師

2）師印亮中國(guó)石油大學(xué)（北京）信息科學(xué)與工程學(xué)院/人工智能學(xué)院人工智能專(zhuān)業(yè) 碩22

3）劉兆年中海油研究總院有限責(zé)任公司高級(jí)工程師

4）姜彬中海油研究總院有限責(zé)任公司高級(jí)工程師

5）李興濤中國(guó)石油國(guó)際勘探開(kāi)發(fā)有限公司高級(jí)工程師

摘要:

由于從二維特征空間到三維姿態(tài)空間的非線(xiàn)性映射的復(fù)雜性，頭部姿態(tài)估計(jì)是一項(xiàng)特別具有挑戰(zhàn)性的任務(wù)。為了解決上述問(wèn)題，本文提出了一種基于粒子群優(yōu)化對(duì)比學(xué)習(xí)（PSO-CL）和多模態(tài)糾纏態(tài)圖卷積網(wǎng)絡(luò)（MEGCN）的高效頭部姿態(tài)估計(jì)框架。首先，提出了一種新的二維關(guān)鍵點(diǎn)檢測(cè)網(wǎng)絡(luò)——區(qū)域和差分感知特征金字塔網(wǎng)絡(luò)（RD-FPN），以減輕背景干擾，增強(qiáng)特征表達(dá)能力。然后，構(gòu)造PSO-CL交替匹配二維和三維關(guān)鍵點(diǎn)，以多模態(tài)關(guān)鍵點(diǎn)匹配精度作為優(yōu)化目標(biāo)，同時(shí)考慮對(duì)比學(xué)習(xí)的交叉模態(tài)正、負(fù)樣本對(duì)的相似性作為局部對(duì)比約束。最后，設(shè)計(jì)MEGCN網(wǎng)絡(luò)并嵌入二階雙線(xiàn)性注意來(lái)增強(qiáng)關(guān)鍵點(diǎn)與頭部姿態(tài)角度之間幾何關(guān)系的表達(dá)能力，引入點(diǎn)-邊注意來(lái)改進(jìn)多模態(tài)關(guān)鍵點(diǎn)之間的幾何特征的表示。在300W-LP、AFLW2000、BIWI數(shù)據(jù)集上，與其他方法相比，我們的方法的平均誤差降低了8.23%，表明本文方法的準(zhǔn)確性、泛化性和效率。

背景與動(dòng)機(jī):

頭部姿態(tài)估計(jì)是計(jì)算機(jī)視覺(jué)的一個(gè)重要任務(wù)，已廣泛應(yīng)用于各個(gè)領(lǐng)域，如人機(jī)交互、視頻監(jiān)控、虛擬現(xiàn)實(shí)、面部表情識(shí)別，凝視估計(jì)和行為理解等。頭部姿態(tài)估計(jì)方法主要可分為傳統(tǒng)的估計(jì)方法和基于深度學(xué)習(xí)的估計(jì)方法。早期傳統(tǒng)估計(jì)方法往往采用外觀(guān)模板方法，估計(jì)結(jié)果精度較低，魯棒性較差。近年來(lái)，利用卷積神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征提取能力，采用深度學(xué)習(xí)的方法來(lái)估計(jì)頭部姿態(tài)。雖然已經(jīng)取得了顯著的改進(jìn)，但由于圖像中二維和三維的相互關(guān)系信息挖掘難度大，導(dǎo)致兩者之間的精確映射關(guān)系難以建立，使得從二維空間到三維姿態(tài)的估計(jì)難以獲得良好的結(jié)果。

主要內(nèi)容:

模型結(jié)構(gòu)

頭部姿態(tài)估計(jì)網(wǎng)絡(luò)的結(jié)構(gòu)框架如圖1所示。首先，將圖像輸入到RD-FPN中，生成關(guān)鍵點(diǎn)熱圖。采用基于積分回歸的方法提取二維關(guān)鍵點(diǎn)，通過(guò)三維人臉重建模型3DFRM，利用二維關(guān)鍵點(diǎn)信息生成初始的三維人臉點(diǎn)云模型。其次，設(shè)計(jì)了基于粒子群優(yōu)化PSO-CL的對(duì)比學(xué)習(xí)方法，用于二維和三維關(guān)鍵點(diǎn)位置的交互匹配。最后，提出了一個(gè)基于二階雙線(xiàn)性注意的多模態(tài)糾纏圖卷積網(wǎng)絡(luò)MEGCN來(lái)糾纏二維和三維關(guān)鍵點(diǎn)特征。將糾纏特征輸入到全連接層中，獲得頭部姿態(tài)角。

圖1 頭部姿態(tài)估計(jì)網(wǎng)絡(luò)的結(jié)構(gòu)框架

為了提高二維和三維關(guān)鍵點(diǎn)的匹配精度，提出了一種基于粒子群優(yōu)化的對(duì)比學(xué)習(xí)交互匹配算法PSO-CL，如圖2所示。為了避免通過(guò)對(duì)比學(xué)習(xí)陷入局部最優(yōu)，同時(shí)提供有效的局部交互特征，這里充分利用PSO在非線(xiàn)性空間中的全局搜索能力來(lái)探索最優(yōu)匹配參數(shù)。

圖2 基于粒子群優(yōu)化的對(duì)比學(xué)習(xí)交互匹配算法

由于難以捕獲多模態(tài)特征之間的相關(guān)性，我們提出了一種基于二階雙線(xiàn)性注意的多模態(tài)糾纏圖卷積網(wǎng)絡(luò)MEGCN，如圖3所示。MEGCN可以有效地集成這兩種多模態(tài)信息，通過(guò)多模態(tài)全局特征交互塊在不同模態(tài)之間傳輸信息，并通過(guò)局部特征糾纏塊將多模態(tài)全局交互信息整合到當(dāng)前的局部圖中。同時(shí)，引入點(diǎn)邊緣注意，以提高局部特征表達(dá)能力。

圖3 基于二階雙線(xiàn)性注意的多模態(tài)糾纏圖卷積網(wǎng)絡(luò)

實(shí)驗(yàn)結(jié)果及分析:

為了定量地評(píng)估我們的方法的準(zhǔn)確性，表1和表2顯示了最先進(jìn)的方法和我們的方法與AFLW2000和BIWI數(shù)據(jù)集的MAE。粗體表示每一列中的最小值。結(jié)果表明，我們建立的關(guān)鍵點(diǎn)和頭部姿態(tài)之間的非線(xiàn)性關(guān)系更穩(wěn)健。在BIWI-train數(shù)據(jù)集上重新訓(xùn)練該模型，并在BIWI-test數(shù)據(jù)集上進(jìn)行測(cè)試。實(shí)驗(yàn)結(jié)果見(jiàn)表3，表明所提模型的性能最優(yōu)。可以看到，本文模型在所有數(shù)據(jù)集上都達(dá)到了最低的總體MAE，并且在單個(gè)數(shù)據(jù)集上也表現(xiàn)良好。

表1 在AFLW2000數(shù)據(jù)集上的實(shí)驗(yàn)比較結(jié)果

（所有模型均在300W-LP訓(xùn)練集上進(jìn)行訓(xùn)練）

表2 在BIWI數(shù)據(jù)集上的實(shí)驗(yàn)比較結(jié)果

（所有模型均在300W-LP訓(xùn)練集上進(jìn)行訓(xùn)練）

表3 在BIWI數(shù)據(jù)集上的實(shí)驗(yàn)比較結(jié)果

（BIWI數(shù)據(jù)中70%數(shù)據(jù)作為訓(xùn)練集，30%作為測(cè)試集）

圖4可視化了BIWI數(shù)據(jù)集上的二維和三維關(guān)鍵點(diǎn)的匹配結(jié)果。結(jié)果表明，該模型對(duì)不同角度的關(guān)鍵點(diǎn)匹配具有很強(qiáng)的魯棒性。

圖4 BIWI數(shù)據(jù)集的二維和三維關(guān)鍵點(diǎn)匹配的示例

圖5顯示了不同方法在AFLW20002000、BIWI和BIWI-test數(shù)據(jù)集上的結(jié)果?？梢钥闯?，本文模型能夠合理地估計(jì)各種頭部姿態(tài)。

圖5 AFLW20002000、BIWI和BIWI-test數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果

結(jié)論:

本文提出了一種新的具有區(qū)域和差分感知機(jī)制的特征金字塔網(wǎng)絡(luò)，從RGB人臉圖像中檢測(cè)二維關(guān)鍵點(diǎn)，以提供平面信息，進(jìn)而提高三維人臉重建的質(zhì)量。在此基礎(chǔ)上，構(gòu)建粒子群優(yōu)化的對(duì)比學(xué)習(xí)，通過(guò)二維和三維關(guān)鍵點(diǎn)的交替匹配，實(shí)現(xiàn)跨模態(tài)關(guān)鍵點(diǎn)重定位，將粒子群優(yōu)化的全局搜索能力與對(duì)比學(xué)習(xí)的局部特征交互能力相結(jié)合，獲得魯棒結(jié)果。最后，提出了二階雙線(xiàn)性注意圖卷積來(lái)糾纏多模態(tài)特征，利用多模態(tài)信息的互補(bǔ)性來(lái)增強(qiáng)面臉關(guān)鍵點(diǎn)的幾何分布與頭部姿態(tài)角度之間關(guān)系的探索能力。

雖然我們已經(jīng)顯著提高了該方法的評(píng)估精度，但在實(shí)際應(yīng)用中仍有一些局限性，特別是在極具挑戰(zhàn)性的條件下捕獲的頭部姿勢(shì)。由于大模型顯著的視覺(jué)理解能力和強(qiáng)大的特征表示能力，未來(lái)將嘗試將大型視覺(jué)模型應(yīng)用于頭部姿態(tài)估計(jì)。

作者簡(jiǎn)介:

連遠(yuǎn)鋒，教授，碩士生導(dǎo)師。研究方向?yàn)閳D像處理與虛擬現(xiàn)實(shí)、機(jī)器視覺(jué)與機(jī)器人、深度學(xué)習(xí)與數(shù)字孿生。

金沙娱乐场官方网-澳门金沙会官网-金沙集团股价实情信息最新

科研動(dòng)態(tài)

基于粒子群優(yōu)化對(duì)比學(xué)習(xí)和多模態(tài)糾纏圖卷積的頭部姿態(tài)估計(jì)