金沙集团老板是哪里人啊,金花娱乐

學(xué)校主頁(yè)

您所在的位置：首頁(yè) - 科學(xué)研究 - 科研動(dòng)態(tài)

科研動(dòng)態(tài)

數(shù)據(jù)稀缺情況下的情景識(shí)別研究

日期：2024-10-21 | 訪(fǎng)問(wèn)量：

中文題目：數(shù)據(jù)稀缺情況下的情景識(shí)別研究

論文題目：Grounded Situation Recognition under Data Scarcity

錄用期刊：Scientific Reports (中科院二區(qū))

作者列表：

1）周靜中國(guó)石油大學(xué)（北京）人工智能學(xué)院計(jì)算機(jī)科學(xué)與技術(shù) 碩22

2）劉志強(qiáng) 中國(guó)石油大學(xué)（北京）人工智能學(xué)院計(jì)算機(jī)科學(xué)與技術(shù) 碩23

3）胡思潁中國(guó)石油大學(xué)（北京）人工智能學(xué)院計(jì)算機(jī)科學(xué)與技術(shù) 碩22

4）李曉雪中國(guó)石油大學(xué)（北京）人工智能學(xué)院計(jì)算機(jī)科學(xué)與技術(shù) 碩23

5）王智廣中國(guó)石油大學(xué)（北京）人工智能學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)系教師

6）魯強(qiáng) 中國(guó)石油大學(xué)（北京）人工智能學(xué)院智能科學(xué)與技術(shù)系教師

摘要:

情景識(shí)別（Grounded Situation Recognition，GSR）是一項(xiàng)生成圖像結(jié)構(gòu)化描述的任務(wù)。對(duì)于給定的圖像，GSR需要識(shí)別出關(guān)鍵動(dòng)詞、角色所對(duì)應(yīng)的名詞及其邊界框。然而，目前的GSR研究需要大量精心標(biāo)注的圖片，這需要耗費(fèi)許多的人力和時(shí)間，使得擴(kuò)大檢測(cè)類(lèi)別成本高昂。我們的研究旨在提高模型在數(shù)據(jù)稀缺場(chǎng)景下檢測(cè)和定位的準(zhǔn)確率，顯著降低模型對(duì)數(shù)據(jù)量的需求，進(jìn)而為后續(xù)擴(kuò)大檢測(cè)類(lèi)別的工作奠定基礎(chǔ)。在本文中，我們提出了Grounded Situation Recognition under Data Scarcity（GSRDS）模型，該模型以CoFormer模型作為基線(xiàn)，并對(duì)圖像特征提取、動(dòng)詞分類(lèi)和邊界框檢測(cè)三個(gè)子任務(wù)進(jìn)行優(yōu)化，以適應(yīng)數(shù)據(jù)稀缺場(chǎng)景。具體來(lái)說(shuō)，我們利用EfficientNetV2-M替代ResNet50來(lái)提取高級(jí)圖像特征，并設(shè)計(jì)了Transformer 與 CLIP 相結(jié)合的動(dòng)詞分類(lèi)（Transformer Combined with CLIP for Verb classification，TCCV）模塊，利用CLIP圖像編碼器提取的特征來(lái)輔助提升動(dòng)詞分類(lèi)精度。同時(shí)，我們?cè)O(shè)計(jì)了多源動(dòng)詞角色查詢(xún)（Multi-source Verb-Role Queries，Multi-VR Queries）和雙并行解碼器（Dual Parallel Decoders，DPD）模塊來(lái)提升邊界框檢測(cè)精度。經(jīng)過(guò)廣泛的對(duì)比實(shí)驗(yàn)和消融實(shí)驗(yàn)，證明了我們的方法能夠在稀缺的數(shù)據(jù)樣本上取得更高的檢測(cè)精度。

背景與動(dòng)機(jī):

情景識(shí)別（GSR）作為計(jì)算機(jī)視覺(jué)領(lǐng)域的重要任務(wù)，旨在生成圖像的結(jié)構(gòu)化描述。近年來(lái)，隨著深度學(xué)習(xí)技術(shù)的發(fā)展，研究者們?cè)贕SR任務(wù)上取得了一定的進(jìn)展，然而大多數(shù)研究依賴(lài)于大量精心標(biāo)注的數(shù)據(jù)集，如SWiG。這些數(shù)據(jù)集雖然為模型提供了豐富的訓(xùn)練數(shù)據(jù)，但其構(gòu)建成本高昂且耗時(shí)，限制了GSR在實(shí)際應(yīng)用中的推廣和實(shí)施。在許多實(shí)際場(chǎng)景中，尤其是在專(zhuān)業(yè)領(lǐng)域，標(biāo)注數(shù)據(jù)的稀缺性成為了研究的一大挑戰(zhàn)。例如，在醫(yī)療、自動(dòng)駕駛等領(lǐng)域，相關(guān)圖像往往難以獲取大量標(biāo)注樣本，但這些領(lǐng)域的GSR應(yīng)用卻具有極大的潛力，通過(guò)精準(zhǔn)的場(chǎng)景識(shí)別和對(duì)象定位，可以極大提高決策的智能化和準(zhǔn)確性。因此，研究如何在數(shù)據(jù)稀缺的情況下進(jìn)行GSR任務(wù)變得尤為重要。通過(guò)探索在數(shù)據(jù)稀缺條件下的GSR，我們可以降低對(duì)大規(guī)模標(biāo)注數(shù)據(jù)的依賴(lài)，減輕數(shù)據(jù)標(biāo)注的成本，同時(shí)為未來(lái)在各種實(shí)際應(yīng)用場(chǎng)景中的推廣打下基礎(chǔ)。這不僅能夠推動(dòng)GSR研究的深入發(fā)展，也能在特定領(lǐng)域的智能化系統(tǒng)構(gòu)建中發(fā)揮重要作用。

設(shè)計(jì)與實(shí)現(xiàn):

我們?cè)?/span>SWiG數(shù)據(jù)集上利用隨機(jī)抽樣策略，構(gòu)建了原數(shù)據(jù)集1∕2、1∕4、1∕8、1∕12和1∕16數(shù)據(jù)量的小規(guī)模數(shù)據(jù)集以用于模擬數(shù)據(jù)稀缺的場(chǎng)景。本文提出的GSRDS模型架構(gòu)如圖1所示，主要包括三個(gè)部分：圖像特征提取，動(dòng)詞預(yù)測(cè)，名詞及邊界框預(yù)測(cè)。GSRDS利用EfficientNetV2-M提取圖像特征并與位置編碼相加作為輸入。TCCV模塊利用Transformer和CLIP編碼器提取的特征對(duì)動(dòng)詞進(jìn)行分類(lèi)。Multi-VR Queries模塊融合了動(dòng)詞、角色及其定義作為對(duì)象查詢(xún)，與Glance Transformer輸出的聚合圖像特征一起作為DPD的輸入。DPD包括Gaze-Step2 Transformer和Transformer Con-Decoder，用于預(yù)測(cè)語(yǔ)義角色所對(duì)應(yīng)的名詞和邊界框，它們的輸出將會(huì)被取均值，然后輸入到三個(gè)前饋網(wǎng)絡(luò)（FFN）分支中得到預(yù)測(cè)的結(jié)果。

圖1 GSRDS 模型架構(gòu)

實(shí)驗(yàn)結(jié)果及分析:

表1的結(jié)果展示了在五種不同規(guī)模數(shù)據(jù)量的設(shè)置下，GSRDS與其他三個(gè)模型在14個(gè)指標(biāo)上的對(duì)比結(jié)果。我們針對(duì)其中5個(gè)關(guān)鍵性指標(biāo)繪制了折線(xiàn)圖如圖2所示，(a)，(b)和(c)圖分別代表在Top-1 Predicted Verb設(shè)置下verb , value 和grnd value 指標(biāo)在五種數(shù)據(jù)量級(jí)上的實(shí)驗(yàn)結(jié)果；(d)和(e)圖代表在Ground-Truth Verb設(shè)置下value 和 grnd value指標(biāo)在五種數(shù)據(jù)量級(jí)上的實(shí)驗(yàn)結(jié)果。可以看出，隨著數(shù)據(jù)量的量級(jí)減小，GSRDS模型的優(yōu)勢(shì)愈發(fā)明顯。表2展示了消融實(shí)驗(yàn)結(jié)果。

表1 GSRDS與不同模型的對(duì)比實(shí)驗(yàn)結(jié)果

圖2關(guān)鍵性指標(biāo)實(shí)驗(yàn)結(jié)果折線(xiàn)圖

表2 GSRDS模型在1/8數(shù)據(jù)量級(jí)上的消融實(shí)驗(yàn)結(jié)果

結(jié)論:

在本文中，我們針對(duì)數(shù)據(jù)稀缺場(chǎng)景下的GSR任務(wù)進(jìn)行研究，設(shè)計(jì)了GSRDS模型。具體來(lái)說(shuō)，我們利用EfficientNetV2-M來(lái)替代ResNet50提取圖像特征，并設(shè)計(jì)TCCV模塊，結(jié)合CLIP圖像編碼器提取的特征，得到了更準(zhǔn)確的動(dòng)詞分類(lèi)結(jié)果。同時(shí)，我們?cè)O(shè)計(jì)了Multi-VR Queries和DPD模塊來(lái)共同改進(jìn)邊界框檢測(cè)精度。我們分別在五種數(shù)據(jù)量設(shè)置的條件下進(jìn)行了對(duì)比實(shí)驗(yàn)和消融實(shí)驗(yàn)，驗(yàn)證了我們模型在數(shù)據(jù)量較小的場(chǎng)景下，可以取得較為優(yōu)異的表現(xiàn)性能。

盡管GSRDS模型在數(shù)據(jù)稀缺場(chǎng)景下相對(duì)于其他模型有較顯著的精度提升，但是與使用全部數(shù)據(jù)集訓(xùn)練的模型仍有差距。在未來(lái)的工作中，可以進(jìn)一步探索以下改進(jìn)：

? 更合適的特征提取方法：經(jīng)實(shí)驗(yàn)證明，高級(jí)圖像特征會(huì)影響GSR任務(wù)的整體性能。未來(lái)的工作可以探索更適合數(shù)據(jù)稀缺場(chǎng)景的主干特征提取網(wǎng)絡(luò)。

? 更全面的特征學(xué)習(xí)方法：本研究加入CLIP模型提取的特征來(lái)彌補(bǔ)數(shù)據(jù)稀缺造成的特征表示不足問(wèn)題，未來(lái)的工作可以挖掘更多預(yù)訓(xùn)練模型的優(yōu)勢(shì)，充分利用數(shù)據(jù)信息，減少數(shù)據(jù)量造成的差異。

? 更優(yōu)異的邊界框檢測(cè)模型：盡管GSRDS針對(duì)邊界框檢測(cè)子任務(wù)做出了改進(jìn)，但其還有很大的改進(jìn)空間。未來(lái)的工作可以從提高名詞分類(lèi)精度和提升目標(biāo)檢測(cè)精度兩方面對(duì)邊界框檢測(cè)模型進(jìn)行改進(jìn)。

? 更廣泛的檢測(cè)范圍：本研究主要關(guān)注于對(duì)模型的改進(jìn)，所使用的數(shù)據(jù)是從SWiG數(shù)據(jù)集中抽樣而得，未來(lái)的工作可以不局限于SWiG數(shù)據(jù)集的504個(gè)類(lèi)別，可以進(jìn)一步擴(kuò)大到更多的類(lèi)別。

通訊作者簡(jiǎn)介:

王智廣，教授，博士生導(dǎo)師，北京市教學(xué)名師。中國(guó)計(jì)算機(jī)學(xué)會(huì)（CCF）高級(jí)會(huì)員，全國(guó)高校實(shí)驗(yàn)室工作研究會(huì)信息技術(shù)專(zhuān)家指導(dǎo)委員會(huì)委員，全國(guó)高校計(jì)算機(jī)專(zhuān)業(yè)（本科）實(shí)驗(yàn)教材與實(shí)驗(yàn)室環(huán)境開(kāi)發(fā)專(zhuān)家委員會(huì)委員，北京市計(jì)算機(jī)教育研究會(huì)常務(wù)理事。長(zhǎng)期從事分布式并行計(jì)算、三維可視化、計(jì)算機(jī)視覺(jué)、知識(shí)圖譜方面的研究工作，主持或承擔(dān)國(guó)家重大科技專(zhuān)項(xiàng)子任務(wù)、國(guó)家重點(diǎn)研發(fā)計(jì)劃子課題、國(guó)家自然科學(xué)基金、北京市教委科研課題、北京市重點(diǎn)實(shí)驗(yàn)室課題、地方政府委托課題以及企業(yè)委托課題20余項(xiàng)，在國(guó)內(nèi)外重要學(xué)術(shù)會(huì)議和期刊上合作發(fā)表學(xué)術(shù)論文70余篇，培養(yǎng)了100余名碩士博士研究生。

金沙娱乐场官方网-澳门金沙会官网-金沙集团股价实情信息最新

科研動(dòng)態(tài)

數(shù)據(jù)稀缺情況下的情景識(shí)別研究