柘城金沙集团老总梁启万简介照片高清,河南金沙集团最新信息消息视频播放,金沙集团张永涛演讲视频全集

學(xué)校主頁(yè)

您所在的位置：首頁(yè) - 科學(xué)研究 - 科研動(dòng)態(tài)

科研動(dòng)態(tài)

深度長(zhǎng)尾學(xué)習(xí)研究綜述

日期：2024-09-24 | 訪(fǎng)問(wèn)量：

中文題目：深度長(zhǎng)尾學(xué)習(xí)研究綜述

論文題目：Survey on deep long-tailed learning

錄用期刊/會(huì)議：自動(dòng)化學(xué)報(bào) （CAA A類(lèi)期刊）

錄用時(shí)間：2024.7.28

作者列表：

1）韓佳藝中國(guó)石油大學(xué)（北京）人工智能學(xué)院控制科學(xué)與工程博22級(jí)

2）劉建偉中國(guó)石油大學(xué)（北京）人工智能學(xué)院自動(dòng)化系教師

3）陳德華東華大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院教師

4）徐璟東中國(guó)石油大學(xué)（北京）人工智能學(xué)院控制科學(xué)與工程碩22級(jí)

5）代琪中國(guó)石油大學(xué)（北京）人工智能學(xué)院控制科學(xué)與工程博20級(jí)

6）夏鵬飛東華大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院博22級(jí)

摘要:

深度學(xué)習(xí)是一門(mén)依賴(lài)于數(shù)據(jù)的科學(xué)，傳統(tǒng)深度學(xué)習(xí)方法假定在平衡數(shù)據(jù)集上訓(xùn)練模型，然而，現(xiàn)實(shí)世界中大規(guī)模數(shù)據(jù)集通常表現(xiàn)出長(zhǎng)尾分布現(xiàn)象，樣本數(shù)量眾多的少量頭部類(lèi)主導(dǎo)模型訓(xùn)練，而大量尾部類(lèi)樣本數(shù)量過(guò)少，難以得到充分學(xué)習(xí)。本文綜合梳理和分析了近年來(lái)發(fā)表在高水平會(huì)議或期刊上的文獻(xiàn)，對(duì)長(zhǎng)尾學(xué)習(xí)進(jìn)行全面的綜述。

背景與動(dòng)機(jī):

大多數(shù)真實(shí)數(shù)據(jù)集通常呈現(xiàn)長(zhǎng)尾分布 (Long-tailed Distribution)，即數(shù)據(jù)集中的大部分?jǐn)?shù)據(jù)屬于少量頭部類(lèi)，而大量尾部類(lèi)在數(shù)據(jù)集中出現(xiàn)的頻率極低，每類(lèi)樣本數(shù)量從頭部到尾部呈指數(shù)遞減。在模型訓(xùn)練過(guò)程中，頭部類(lèi)主導(dǎo)了模型參數(shù)優(yōu)化過(guò)程，導(dǎo)致模型對(duì)頭部類(lèi)表現(xiàn)出過(guò)強(qiáng)的偏好。另一方面，由于尾部類(lèi)包含的樣本數(shù)量過(guò)少，模型對(duì)尾部類(lèi)學(xué)習(xí)不充分，難以學(xué)到良好的特征表示。長(zhǎng)尾學(xué)習(xí)適用于數(shù)據(jù)本身類(lèi)分布具有稀疏性的學(xué)習(xí)場(chǎng)景，能夠降低人工收集稀有類(lèi)數(shù)據(jù)來(lái)構(gòu)建平衡數(shù)據(jù)集的高昂成本，對(duì)于深度學(xué)習(xí)進(jìn)一步部署于實(shí)際學(xué)習(xí)環(huán)境中有著重要意義。

主要內(nèi)容:

本文從深度學(xué)習(xí)的設(shè)計(jì)流程出發(fā)，構(gòu)建了一種新的長(zhǎng)尾學(xué)習(xí)分類(lèi)方法。對(duì)于圖像識(shí)別領(lǐng)域，重采樣與數(shù)據(jù)增強(qiáng)本質(zhì)上都屬于構(gòu)建信息量更均衡的輸入樣本空間。優(yōu)化特征提取器、優(yōu)化分類(lèi)器、logits 調(diào)整和代價(jià)敏感加權(quán)損失函數(shù)方法旨在優(yōu)化模型結(jié)構(gòu)或模型參數(shù)，屬于優(yōu)化模型空間的方法。在此基礎(chǔ)上，解耦學(xué)習(xí)、度量學(xué)習(xí)、知識(shí)蒸餾、集成學(xué)習(xí)和層次學(xué)習(xí)通過(guò)引入輔助任務(wù)，同時(shí)優(yōu)化多個(gè)空間上的任務(wù)。此外，廣義長(zhǎng)尾分布則是從多尺度建模長(zhǎng)尾分布。在每個(gè)子類(lèi)中，根據(jù)研究動(dòng)機(jī)與實(shí)現(xiàn)手段對(duì)文獻(xiàn)進(jìn)一步細(xì)化歸類(lèi)。此外，本文對(duì)文本數(shù)據(jù)、語(yǔ)音數(shù)據(jù)等其它數(shù)據(jù)形式下的長(zhǎng)尾學(xué)習(xí)算法進(jìn)行簡(jiǎn)要評(píng)述。最后，討論了目前長(zhǎng)尾學(xué)習(xí)面臨的可解釋性較差、數(shù)據(jù)質(zhì)量較低等挑戰(zhàn)，并展望了如多模態(tài)長(zhǎng)尾學(xué)習(xí)、半監(jiān)督長(zhǎng)尾學(xué)習(xí)等未來(lái)具有潛力的發(fā)展方向。

圖1 深度長(zhǎng)尾學(xué)習(xí)研究綜述組織結(jié)構(gòu)圖

結(jié)論:

本文歸納與評(píng)述了長(zhǎng)尾學(xué)習(xí)的研究現(xiàn)狀，依據(jù)模型設(shè)計(jì)流程將圖像識(shí)別領(lǐng)域的長(zhǎng)尾學(xué)習(xí)算法分為優(yōu)化樣本空間、優(yōu)化模型空間與輔助任務(wù)學(xué)習(xí)三大類(lèi)，并詳細(xì)分析每類(lèi)長(zhǎng)尾學(xué)習(xí)范式的研究動(dòng)機(jī)與算法特點(diǎn)，對(duì)比了各種方法的優(yōu)缺點(diǎn)，并對(duì)自然語(yǔ)言處理、時(shí)序預(yù)測(cè)等多種其它數(shù)據(jù)形式下的長(zhǎng)尾分布任務(wù)場(chǎng)景進(jìn)行介紹。最后，從原理解釋、數(shù)據(jù)質(zhì)量、模型性能、計(jì)算資源與評(píng)價(jià)指標(biāo)這5個(gè)方面討論了目前長(zhǎng)尾學(xué)習(xí)研究的瓶頸，并提出若干個(gè)有前景的未來(lái)發(fā)展方向，為讀者提供更多思路。

作者簡(jiǎn)介:

劉建偉，教師，學(xué)者。發(fā)表學(xué)術(shù)研究論文280多篇。

金沙娱乐场官方网-澳门金沙会官网-金沙集团股价实情信息最新

科研動(dòng)態(tài)

深度長(zhǎng)尾學(xué)習(xí)研究綜述