金沙娱乐场官方网-澳门金沙会官网-金沙集团股价实情信息最新

科研動(dòng)態(tài)

數(shù)據(jù)稀缺情況下的情景識(shí)別研究

中文題目:數(shù)據(jù)稀缺情況下的情景識(shí)別研究

論文題目Grounded Situation Recognition under Data Scarcity

錄用期刊Scientific Reports (中科院二區(qū))

作者列表

1) 周    中國(guó)石油大學(xué)(北京)人工智能學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù) 22

2) 劉志強(qiáng) 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù) 23

3) 胡思潁 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù) 22

4) 李曉雪 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù) 23

5) 王智廣 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)系 教師

6) 魯   強(qiáng) 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 智能科學(xué)與技術(shù)系 教師

摘要:

情景識(shí)別(Grounded Situation Recognition,GSR)是一項(xiàng)生成圖像結(jié)構(gòu)化描述的任務(wù)。對(duì)于給定的圖像,GSR需要識(shí)別出關(guān)鍵動(dòng)詞、角色所對(duì)應(yīng)的名詞及其邊界框。然而,目前的GSR研究需要大量精心標(biāo)注的圖片,這需要耗費(fèi)許多的人力和時(shí)間,使得擴(kuò)大檢測(cè)類(lèi)別成本高昂。我們的研究旨在提高模型在數(shù)據(jù)稀缺場(chǎng)景下檢測(cè)和定位的準(zhǔn)確率,顯著降低模型對(duì)數(shù)據(jù)量的需求,進(jìn)而為后續(xù)擴(kuò)大檢測(cè)類(lèi)別的工作奠定基礎(chǔ)。在本文中,我們提出了Grounded Situation Recognition under Data Scarcity(GSRDS)模型,該模型以CoFormer模型作為基線(xiàn),并對(duì)圖像特征提取、動(dòng)詞分類(lèi)和邊界框檢測(cè)三個(gè)子任務(wù)進(jìn)行優(yōu)化,以適應(yīng)數(shù)據(jù)稀缺場(chǎng)景。具體來(lái)說(shuō),我們利用EfficientNetV2-M替代ResNet50來(lái)提取高級(jí)圖像特征,并設(shè)計(jì)了Transformer 與 CLIP 相結(jié)合的動(dòng)詞分類(lèi)(Transformer Combined with CLIP for Verb classification,TCCV) 模塊,利用CLIP圖像編碼器提取的特征來(lái)輔助提升動(dòng)詞分類(lèi)精度。同時(shí),我們?cè)O(shè)計(jì)了多源動(dòng)詞角色查詢(xún)(Multi-source Verb-Role Queries,Multi-VR Queries)和雙并行解碼器(Dual Parallel Decoders,DPD)模塊來(lái)提升邊界框檢測(cè)精度。經(jīng)過(guò)廣泛的對(duì)比實(shí)驗(yàn)和消融實(shí)驗(yàn),證明了我們的方法能夠在稀缺的數(shù)據(jù)樣本上取得更高的檢測(cè)精度。

背景與動(dòng)機(jī):

情景識(shí)別(GSR)作為計(jì)算機(jī)視覺(jué)領(lǐng)域的重要任務(wù),旨在生成圖像的結(jié)構(gòu)化描述。近年來(lái),隨著深度學(xué)習(xí)技術(shù)的發(fā)展,研究者們?cè)贕SR任務(wù)上取得了一定的進(jìn)展,然而大多數(shù)研究依賴(lài)于大量精心標(biāo)注的數(shù)據(jù)集,如SWiG。這些數(shù)據(jù)集雖然為模型提供了豐富的訓(xùn)練數(shù)據(jù),但其構(gòu)建成本高昂且耗時(shí),限制了GSR在實(shí)際應(yīng)用中的推廣和實(shí)施。在許多實(shí)際場(chǎng)景中,尤其是在專(zhuān)業(yè)領(lǐng)域,標(biāo)注數(shù)據(jù)的稀缺性成為了研究的一大挑戰(zhàn)。例如,在醫(yī)療、自動(dòng)駕駛等領(lǐng)域,相關(guān)圖像往往難以獲取大量標(biāo)注樣本,但這些領(lǐng)域的GSR應(yīng)用卻具有極大的潛力,通過(guò)精準(zhǔn)的場(chǎng)景識(shí)別和對(duì)象定位,可以極大提高決策的智能化和準(zhǔn)確性。因此,研究如何在數(shù)據(jù)稀缺的情況下進(jìn)行GSR任務(wù)變得尤為重要。通過(guò)探索在數(shù)據(jù)稀缺條件下的GSR,我們可以降低對(duì)大規(guī)模標(biāo)注數(shù)據(jù)的依賴(lài),減輕數(shù)據(jù)標(biāo)注的成本,同時(shí)為未來(lái)在各種實(shí)際應(yīng)用場(chǎng)景中的推廣打下基礎(chǔ)。這不僅能夠推動(dòng)GSR研究的深入發(fā)展,也能在特定領(lǐng)域的智能化系統(tǒng)構(gòu)建中發(fā)揮重要作用。

設(shè)計(jì)與實(shí)現(xiàn):

我們?cè)?/span>SWiG數(shù)據(jù)集上利用隨機(jī)抽樣策略,構(gòu)建了原數(shù)據(jù)集1∕2、1∕4、1∕8、1∕12和1∕16數(shù)據(jù)量的小規(guī)模數(shù)據(jù)集以用于模擬數(shù)據(jù)稀缺的場(chǎng)景。本文提出的GSRDS模型架構(gòu)如圖1所示,主要包括三個(gè)部分:圖像特征提取,動(dòng)詞預(yù)測(cè),名詞及邊界框預(yù)測(cè)。GSRDS利用EfficientNetV2-M提取圖像特征并與位置編碼相加作為輸入。TCCV模塊利用Transformer和CLIP編碼器提取的特征對(duì)動(dòng)詞進(jìn)行分類(lèi)。Multi-VR Queries模塊融合了動(dòng)詞、角色及其定義作為對(duì)象查詢(xún),與Glance Transformer輸出的聚合圖像特征一起作為DPD的輸入。DPD包括Gaze-Step2 Transformer和Transformer Con-Decoder,用于預(yù)測(cè)語(yǔ)義角色所對(duì)應(yīng)的名詞和邊界框,它們的輸出將會(huì)被取均值,然后輸入到三個(gè)前饋網(wǎng)絡(luò)(FFN)分支中得到預(yù)測(cè)的結(jié)果。

1 GSRDS 模型架構(gòu)

實(shí)驗(yàn)結(jié)果及分析:

1的結(jié)果展示了在五種不同規(guī)模數(shù)據(jù)量的設(shè)置下,GSRDS與其他三個(gè)模型在14個(gè)指標(biāo)上的對(duì)比結(jié)果。我們針對(duì)其中5個(gè)關(guān)鍵性指標(biāo)繪制了折線(xiàn)圖如圖2所示,(a),(b)和(c)圖分別代表在Top-1 Predicted Verb設(shè)置下verb , value 和grnd value 指標(biāo)在五種數(shù)據(jù)量級(jí)上的實(shí)驗(yàn)結(jié)果;(d)和(e)圖代表在Ground-Truth Verb設(shè)置下value 和 grnd value指標(biāo)在五種數(shù)據(jù)量級(jí)上的實(shí)驗(yàn)結(jié)果。可以看出,隨著數(shù)據(jù)量的量級(jí)減小,GSRDS模型的優(yōu)勢(shì)愈發(fā)明顯。表2展示了消融實(shí)驗(yàn)結(jié)果。

1 GSRDS與不同模型的對(duì)比實(shí)驗(yàn)結(jié)果


2關(guān)鍵性指標(biāo)實(shí)驗(yàn)結(jié)果折線(xiàn)圖

2 GSRDS模型在1/8數(shù)據(jù)量級(jí)上的消融實(shí)驗(yàn)結(jié)果

結(jié)論:

在本文中,我們針對(duì)數(shù)據(jù)稀缺場(chǎng)景下的GSR任務(wù)進(jìn)行研究,設(shè)計(jì)了GSRDS模型。具體來(lái)說(shuō),我們利用EfficientNetV2-M來(lái)替代ResNet50提取圖像特征,并設(shè)計(jì)TCCV模塊,結(jié)合CLIP圖像編碼器提取的特征,得到了更準(zhǔn)確的動(dòng)詞分類(lèi)結(jié)果。同時(shí),我們?cè)O(shè)計(jì)了Multi-VR Queries和DPD模塊來(lái)共同改進(jìn)邊界框檢測(cè)精度。我們分別在五種數(shù)據(jù)量設(shè)置的條件下進(jìn)行了對(duì)比實(shí)驗(yàn)和消融實(shí)驗(yàn),驗(yàn)證了我們模型在數(shù)據(jù)量較小的場(chǎng)景下,可以取得較為優(yōu)異的表現(xiàn)性能。

盡管GSRDS模型在數(shù)據(jù)稀缺場(chǎng)景下相對(duì)于其他模型有較顯著的精度提升,但是與使用全部數(shù)據(jù)集訓(xùn)練的模型仍有差距。在未來(lái)的工作中,可以進(jìn)一步探索以下改進(jìn):

? 更合適的特征提取方法:經(jīng)實(shí)驗(yàn)證明,高級(jí)圖像特征會(huì)影響GSR任務(wù)的整體性能。未來(lái)的工作可以探索更適合數(shù)據(jù)稀缺場(chǎng)景的主干特征提取網(wǎng)絡(luò)。

? 更全面的特征學(xué)習(xí)方法:本研究加入CLIP模型提取的特征來(lái)彌補(bǔ)數(shù)據(jù)稀缺造成的特征表示不足問(wèn)題,未來(lái)的工作可以挖掘更多預(yù)訓(xùn)練模型的優(yōu)勢(shì),充分利用數(shù)據(jù)信息,減少數(shù)據(jù)量造成的差異。

? 更優(yōu)異的邊界框檢測(cè)模型:盡管GSRDS針對(duì)邊界框檢測(cè)子任務(wù)做出了改進(jìn),但其還有很大的改進(jìn)空間。未來(lái)的工作可以從提高名詞分類(lèi)精度和提升目標(biāo)檢測(cè)精度兩方面對(duì)邊界框檢測(cè)模型進(jìn)行改進(jìn)。

? 更廣泛的檢測(cè)范圍:本研究主要關(guān)注于對(duì)模型的改進(jìn),所使用的數(shù)據(jù)是從SWiG數(shù)據(jù)集中抽樣而得,未來(lái)的工作可以不局限于SWiG數(shù)據(jù)集的504個(gè)類(lèi)別,可以進(jìn)一步擴(kuò)大到更多的類(lèi)別。

通訊作者簡(jiǎn)介:

王智廣,教授,博士生導(dǎo)師,北京市教學(xué)名師。中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)高級(jí)會(huì)員,全國(guó)高校實(shí)驗(yàn)室工作研究會(huì)信息技術(shù)專(zhuān)家指導(dǎo)委員會(huì)委員,全國(guó)高校計(jì)算機(jī)專(zhuān)業(yè)(本科)實(shí)驗(yàn)教材與實(shí)驗(yàn)室環(huán)境開(kāi)發(fā)專(zhuān)家委員會(huì)委員,北京市計(jì)算機(jī)教育研究會(huì)常務(wù)理事。長(zhǎng)期從事分布式并行計(jì)算、三維可視化、計(jì)算機(jī)視覺(jué)、知識(shí)圖譜方面的研究工作,主持或承擔(dān)國(guó)家重大科技專(zhuān)項(xiàng)子任務(wù)、國(guó)家重點(diǎn)研發(fā)計(jì)劃子課題、國(guó)家自然科學(xué)基金、北京市教委科研課題、北京市重點(diǎn)實(shí)驗(yàn)室課題、地方政府委托課題以及企業(yè)委托課題20余項(xiàng),在國(guó)內(nèi)外重要學(xué)術(shù)會(huì)議和期刊上合作發(fā)表學(xué)術(shù)論文70余篇,培養(yǎng)了100余名碩士博士研究生。