金沙娱乐场官方网-澳门金沙会官网-金沙集团股价实情信息最新

科研動(dòng)態(tài)

類(lèi)不平衡問(wèn)題的距離映射重疊復(fù)雜度度量

中文題目:類(lèi)不平衡問(wèn)題的距離映射重疊復(fù)雜度度量

論文題目:Distance Mapping Overlap Complexity Metric for Class-Imbalance Problems

錄用期刊/會(huì)議:【Applied Soft Computing】 (中科院大類(lèi)1區(qū),JCR Q1 Top)

原文DOIhttps://doi.org/10.1016/j.asoc.2024.111904

原文鏈接:

https://www.sciencedirect.com/science/article/pii/S1568494624006781

錄用/見(jiàn)刊時(shí)間:2024.06.21

封面圖片:



作者列表

1) 代琪 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 控制科學(xué)與工程 博20

2) 劉建偉 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 自動(dòng)化系 教師

3) 施永輝 華北理工大學(xué) 理學(xué)院

摘要:

類(lèi)不平衡問(wèn)題的數(shù)據(jù)復(fù)雜度是數(shù)據(jù)挖掘領(lǐng)域的熱點(diǎn)。經(jīng)典的數(shù)據(jù)復(fù)雜性度量方法使用kNN等技術(shù),計(jì)算每個(gè)樣本的最近鄰。但是,基于kNN的方法獲取所有樣本的最近鄰是一個(gè)NP難問(wèn)題,不利于大規(guī)模數(shù)據(jù)復(fù)雜度計(jì)算。為了解決這個(gè)問(wèn)題,分別從全局和局部?jī)蓚€(gè)角度提出四種距離映射復(fù)雜度度量方法,將這類(lèi)復(fù)雜度稱(chēng)為距離映射重疊指數(shù)(DMOI)。首先,使用馬氏距離或標(biāo)準(zhǔn)化歐氏距離計(jì)算樣本到數(shù)據(jù)集中心點(diǎn)的距離,并按照每個(gè)樣本的距離大小排序。然后,根據(jù)有序標(biāo)簽向量,遍歷搜索每一類(lèi)的映射割點(diǎn)數(shù)。最后,根據(jù)不同類(lèi)的映射割點(diǎn)數(shù),計(jì)算數(shù)據(jù)集的DMOI。在50個(gè)類(lèi)不平衡數(shù)據(jù)集上的實(shí)驗(yàn)表明,提出的方法優(yōu)于最新的針對(duì)類(lèi)不平衡問(wèn)題的復(fù)雜度度量方法。雖然對(duì)于基于規(guī)則或樹(shù)的分類(lèi)器,DMOI與ONB相比,仍然存在差距,但是,使用皮爾遜相關(guān)系數(shù)表明,DMOI能夠有效地近似ONB,且它們之間存在強(qiáng)正相關(guān)性。

背景與動(dòng)機(jī):

數(shù)據(jù)的復(fù)雜性度量方法致力于評(píng)估訓(xùn)練數(shù)據(jù)集復(fù)雜程度。類(lèi)重疊問(wèn)題是影響分類(lèi)器的重要數(shù)據(jù)問(wèn)題之一。目前的研究表明,當(dāng)數(shù)據(jù)集中類(lèi)重疊和類(lèi)不平衡問(wèn)題同時(shí)存在時(shí),分類(lèi)器的性能將會(huì)受到嚴(yán)重的影響。對(duì)于數(shù)據(jù)集的重疊程度的度量方法并未形成統(tǒng)一的標(biāo)準(zhǔn)度量方法。

特征重疊度度量方法主要是衡量個(gè)體特征之間的重疊程度。在使用這類(lèi)重疊度度量方法之前,我們默認(rèn)特征之間是不存在相關(guān)性的。然而,這樣的情況在實(shí)際應(yīng)用中并不多見(jiàn)。結(jié)構(gòu)重疊度量方法主要是搜索數(shù)據(jù)集中的結(jié)構(gòu)特征估計(jì)數(shù)據(jù)集的類(lèi)重疊程度。然而,傳統(tǒng)的結(jié)構(gòu)重疊度度量方法主要是通過(guò)暴力搜索的方式,遍歷整個(gè)數(shù)據(jù)集。當(dāng)面臨大規(guī)模數(shù)據(jù)集時(shí),暴力搜索并不可取。通常我們認(rèn)為樣本之間的相似性或距離越小,則樣本之間越容易出現(xiàn)類(lèi)重疊問(wèn)題。

在重疊度度量方法中,通過(guò)使用距離函數(shù)映射的方式,搜索數(shù)據(jù)集中存在的重疊問(wèn)題。在距離映射向量上,如果不同類(lèi)的樣本交織在一起,則表明它們更有可能位于相同的區(qū)域中。因此,首次使用距離映射的方式,提出一種估計(jì)數(shù)據(jù)集的全局類(lèi)重疊復(fù)雜度的方法。通過(guò)移除數(shù)據(jù)集的某一個(gè)特征,從理論上證明了數(shù)據(jù)集的特征子空間中,仍然存在潛在的重疊問(wèn)題。為了避免忽略特征之間的相關(guān)性,我們進(jìn)一步提出一種從局部特征子空間的角度估計(jì)數(shù)據(jù)集的類(lèi)重疊程度的方法。

設(shè)計(jì)與實(shí)現(xiàn):

提出的距離映射重疊復(fù)雜度度量(DMOI)的示意圖如下所示。



主要內(nèi)容:

在提出的DMOI方法中,主要分為三個(gè)階段:距離映射與排序、映射割點(diǎn)數(shù)計(jì)算和重疊指數(shù)計(jì)算。注意,MDOI和SEDMOI兩種方法除了距離度量方法存在差異之外,其具有相同的計(jì)算過(guò)程。

在第一階段中,計(jì)算數(shù)據(jù)集中的所有樣本的距離值,并獲取整個(gè)數(shù)據(jù)集的有序距離向量。

第二階段,根據(jù)有序距離向量中樣本的原始索引值,記錄有序距離向量中樣本的標(biāo)簽信息。根據(jù)標(biāo)簽索引與有序距離向量對(duì)應(yīng),獲得樣本的有序標(biāo)簽向量。然后,根據(jù)有序標(biāo)簽向量計(jì)算數(shù)據(jù)集中每個(gè)類(lèi)的樣本的映射割點(diǎn)數(shù)。

第三階段,分別提出全局距離映射重疊指數(shù)(DMOI-G)和局部距離映射重疊指數(shù)(DMOI-L)。

實(shí)驗(yàn)結(jié)果及分析:

在50個(gè)不平衡數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),并計(jì)算分類(lèi)結(jié)果與復(fù)雜度度量方法之間的皮爾遜相關(guān)系數(shù),實(shí)驗(yàn)結(jié)果如下所示。

不同評(píng)估度量與復(fù)雜度度量方法之間的皮爾遜相關(guān)系數(shù):





(a)G-mean (b)Kappa





(c)AUC (d)MCC

圖1 不同評(píng)估度量與復(fù)雜度度量之間的皮爾遜相關(guān)系數(shù)

復(fù)雜度之間的相關(guān)性如下所示:

表1 復(fù)雜度度量之間的相似性



結(jié)論:

DMOI是一種快速的數(shù)據(jù)重疊復(fù)雜度度量方法,在該方法中,根據(jù)不同的距離函數(shù),提出兩種復(fù)雜度度量方法。為了考慮數(shù)據(jù)集中樣本間的相關(guān)性,使用局部多粒度子空間思想,從全局和局部?jī)蓚€(gè)視角,全面評(píng)估數(shù)據(jù)集的復(fù)雜程度。實(shí)驗(yàn)結(jié)果表明,DMOI計(jì)算獲得的數(shù)據(jù)重疊程度與非規(guī)則歸納分類(lèi)器的性能呈現(xiàn)強(qiáng)負(fù)相關(guān)性,而對(duì)于規(guī)則歸納分類(lèi)器而言,ONBavg的近似能力更好。此外,ONBavg的計(jì)算復(fù)雜度較高,不適合在大規(guī)模數(shù)據(jù)集上使用。實(shí)驗(yàn)結(jié)果表明,DMOI系列的方法能夠有效地近似ONBavg的計(jì)算結(jié)果,并且呈現(xiàn)出明顯的正相關(guān)性。

作者簡(jiǎn)介:

代琪 自動(dòng)化系2020級(jí)博士研究生。

通訊作者簡(jiǎn)介:

劉建偉,教師,學(xué)者。