金沙娱乐场官方网-澳门金沙会官网-金沙集团股价实情信息最新

科研動(dòng)態(tài)

基于知識(shí)圖譜-文本的數(shù)據(jù)增強(qiáng)和虛擬對(duì)抗的中文專(zhuān)業(yè)領(lǐng)域命名實(shí)體識(shí)別

中文題目:基于知識(shí)圖譜-文本的數(shù)據(jù)增強(qiáng)和虛擬對(duì)抗的中文專(zhuān)業(yè)領(lǐng)域命名實(shí)體識(shí)別

論文題目Data Augmentation with Knowledge Graph-to-Text and Virtual Adversary for Specialized-Domain Chinese NER

錄用期刊/會(huì)議International Joint Conference on Neural Networks (CCF C)

作者列表

1) 胡思潁 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 碩22

2) 王智廣 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)系 教師

3) 張冰彬 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 碩22

4) 王 天 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 碩21

5) 劉志強(qiáng) 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 碩23

6) 魯 強(qiáng) 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 智能科學(xué)與技術(shù)系 教師

摘要:

中文命名實(shí)體識(shí)別在通用領(lǐng)域得到了很好的研究,但實(shí)際工程應(yīng)用中更關(guān)注專(zhuān)業(yè)領(lǐng)域中的中文命名實(shí)體識(shí)別。然而,由于專(zhuān)業(yè)領(lǐng)域下標(biāo)注數(shù)據(jù)稀缺,命名實(shí)體識(shí)別性能仍然欠佳。本文主要針對(duì)標(biāo)注樣本稀缺問(wèn)題進(jìn)行了兩點(diǎn)改進(jìn),一方面,我們提出了Knowledge Graph Text Alignment with BART(KGTA-BART)作為全新的數(shù)據(jù)增強(qiáng)方法。與之前的研究相比,KGTA-BART首次引入從結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)所提取的知識(shí)圖譜,將知識(shí)圖譜的圖信息與已標(biāo)注文本數(shù)據(jù)的語(yǔ)義信息對(duì)齊,之后基于BART模型將知識(shí)圖譜生成高質(zhì)量的語(yǔ)義文本,在標(biāo)注數(shù)據(jù)稀缺時(shí)擴(kuò)展數(shù)據(jù)集。另一方面,我們提出了Virtual Adversary with BART(VA-BART)命名實(shí)體識(shí)別模型。VA-BART模型結(jié)合BART作為編碼層,并將虛擬對(duì)抗應(yīng)用在中文命名實(shí)體識(shí)別任務(wù),在標(biāo)注數(shù)據(jù)稀缺時(shí)更好地捕捉文本中的上下文信息,增強(qiáng)了模型對(duì)于未見(jiàn)過(guò)的樣本的泛化能力。實(shí)驗(yàn)結(jié)果表明,基于KGTA-BART的VA-BART方法在我們的中文專(zhuān)業(yè)領(lǐng)域數(shù)據(jù)集中對(duì)比基線(xiàn)方法有實(shí)質(zhì)性的改進(jìn)。

背景與動(dòng)機(jī):

命名實(shí)體識(shí)別(NER)是一項(xiàng)重要的自然語(yǔ)言處理任務(wù)。中文命名實(shí)體識(shí)別(CNER)作為NER的一個(gè)重要子模塊,這些年來(lái)通過(guò)預(yù)訓(xùn)練模型,研究者們常常專(zhuān)注于通用領(lǐng)域的CNER,然而在實(shí)際工程應(yīng)用中,專(zhuān)業(yè)領(lǐng)域的CNER往往有著更重要的影響。通過(guò)專(zhuān)業(yè)領(lǐng)域CNER并用于關(guān)系抽取、問(wèn)答系統(tǒng)、機(jī)器翻譯等任務(wù),可以構(gòu)建領(lǐng)域智能化系統(tǒng),提高文本處理和語(yǔ)言理解的效果,幫助人們獲取領(lǐng)域知識(shí)。例如,石油煉化領(lǐng)域,從領(lǐng)域文檔中挖掘出有價(jià)值的信息和知識(shí),對(duì)加快石油領(lǐng)域數(shù)字化轉(zhuǎn)型、智能化發(fā)展有著重要意義。但在進(jìn)行這類(lèi)專(zhuān)業(yè)領(lǐng)域的CNER時(shí),目前主要面臨著標(biāo)注數(shù)據(jù)稀缺的挑戰(zhàn),導(dǎo)致命名實(shí)體識(shí)別性能欠佳。

設(shè)計(jì)與實(shí)現(xiàn):

我們提出了數(shù)據(jù)增強(qiáng)方法KGTA-BART與中文命名實(shí)體識(shí)別模型VA-BART進(jìn)行專(zhuān)業(yè)領(lǐng)域CNER任務(wù)。CNER任務(wù)的流程包括:

Step 1:KGTA-BART網(wǎng)絡(luò)架構(gòu)。通過(guò)數(shù)據(jù)增強(qiáng)方法KGTA-BART進(jìn)行模型訓(xùn)練。

Step 2:數(shù)據(jù)增強(qiáng)文本生成。使用訓(xùn)練完的模型對(duì)知識(shí)圖譜與文本對(duì)齊,并進(jìn)行文本生成作為命名實(shí)體識(shí)別的增強(qiáng)文本。

Step 3:VA-BART中文命名實(shí)體識(shí)別模型。生成文本作為增強(qiáng)文本連同已標(biāo)注文本作用于命名實(shí)體識(shí)別模型VA-BART,完成命名實(shí)體識(shí)別任務(wù)。


KGTA-BART網(wǎng)絡(luò)架構(gòu)

圖1展示了KGTA-BART數(shù)據(jù)增強(qiáng)方法模型訓(xùn)練的結(jié)構(gòu)。圖1的(a)部分展示了向量表示對(duì)齊模塊。由于已標(biāo)注文本中不僅包含了語(yǔ)義維度信息,同時(shí)可提取出圖維度信息。我們提出通過(guò)文本編碼器和圖編碼器可以分別獲取到文本維度和圖維度實(shí)體向量。為了彌合文本維度和圖維度間的差距,我們通過(guò)使用歐幾里德距離來(lái)模擬向量表示對(duì)齊。向量表示對(duì)齊能夠有效地將已標(biāo)注文本中的文本信息和圖信息對(duì)齊。其為后續(xù)知識(shí)圖譜與文本對(duì)齊提供有力的幫助。

圖1的(b)部分展示了基于句式的掩碼補(bǔ)全模塊,我們結(jié)合BART模型,提出了一種基于掩碼句式的模型訓(xùn)練方式,完成Maskfilling訓(xùn)練。主要包括掩碼句式構(gòu)建和句式文本生成訓(xùn)練兩個(gè)部分。


圖1 KGTA-BART 數(shù)據(jù)增強(qiáng)方法模型訓(xùn)練的概述


數(shù)據(jù)增強(qiáng)文本生成

在KGTA-BART訓(xùn)練完之后,使用訓(xùn)練完的模型進(jìn)行文本生成,概述圖如圖2所示。在文本生成階段,首先將含圖信息的知識(shí)圖譜與含語(yǔ)義信息的已標(biāo)注的文本中與知識(shí)圖譜標(biāo)簽類(lèi)型相同的文本進(jìn)行編碼并基于相似度計(jì)算進(jìn)行圖文對(duì)齊匹配相似度最高的文本,之后通過(guò)掩碼句式構(gòu)建并基于BART生成句式文本,最后進(jìn)行實(shí)體填充生成增強(qiáng)文本。



圖2 KGTA-BART 數(shù)據(jù)增強(qiáng)方法的文本生成概述


VA-BART中文命名實(shí)體識(shí)別模型

生成文本作為增強(qiáng)文本連同已標(biāo)注文本作用于命名實(shí)體識(shí)別模型VA-BART。模型的主要結(jié)構(gòu)如圖3所示,給定一個(gè)輸入句子,然后輸入到預(yù)訓(xùn)練的BART模塊中。為了進(jìn)一步增強(qiáng)上下文建模,在BART計(jì)算之后,采用雙向LSTM生成最終的單詞表示。最后使用條件隨機(jī)場(chǎng)進(jìn)行token的預(yù)測(cè)。為了提高模型泛化性,參考虛擬對(duì)抗的機(jī)制,我們將其運(yùn)用到了中文命名實(shí)體識(shí)別任務(wù)中。



圖3 VA-BART CNER 模型結(jié)構(gòu)


中文專(zhuān)業(yè)領(lǐng)域數(shù)據(jù)集

由于現(xiàn)存的CNER公共數(shù)據(jù)集中基本都是通用領(lǐng)域的數(shù)據(jù)集,而一些專(zhuān)業(yè)領(lǐng)域的數(shù)據(jù)集例如中文醫(yī)學(xué)領(lǐng)域數(shù)據(jù)集中又沒(méi)有對(duì)應(yīng)的由結(jié)構(gòu)化和半結(jié)構(gòu)化的信息中提取實(shí)體關(guān)系從而構(gòu)建的知識(shí)圖譜。因此,為了落實(shí)實(shí)際應(yīng)用以及檢驗(yàn)我們方法的有效性,我們提出了石油煉化領(lǐng)域的標(biāo)注數(shù)據(jù)集以及該領(lǐng)域從結(jié)構(gòu)化和半結(jié)構(gòu)化的信息中提取實(shí)體關(guān)系構(gòu)建出來(lái)的知識(shí)圖譜。同時(shí)為了驗(yàn)證模型的泛化性,我們對(duì)中文關(guān)系抽取數(shù)據(jù)集DuIE2.0進(jìn)行篩選,將其中的實(shí)體類(lèi)別進(jìn)行細(xì)粒度劃分,最后形成娛樂(lè)領(lǐng)域標(biāo)注數(shù)據(jù)集,并模擬了娛樂(lè)領(lǐng)域只含有圖信息的知識(shí)圖譜。兩個(gè)數(shù)據(jù)集的詳細(xì)信息如表1所示。

表1 數(shù)據(jù)集詳細(xì)信息

實(shí)驗(yàn)結(jié)果及分析:

根據(jù)表2的結(jié)果,我們提出的基于KGTA-BART的VA-BART方法在石油煉化以及娛樂(lè)兩個(gè)中文專(zhuān)業(yè)領(lǐng)域的NER方法和數(shù)據(jù)增強(qiáng)方法層面上皆表現(xiàn)出卓越的效果。首先,在NER方法層面上,將一些預(yù)訓(xùn)練模型作為基線(xiàn),我們的命名實(shí)體識(shí)別模型相對(duì)于性能最佳的基線(xiàn)模型,在無(wú)增強(qiáng)數(shù)據(jù)條件下都獲得了最佳效果。此外,在數(shù)據(jù)增強(qiáng)的層面上,經(jīng)過(guò)各種數(shù)據(jù)增強(qiáng)方法擴(kuò)展的數(shù)據(jù)集均基于我們的VA-BART上進(jìn)行命名實(shí)體識(shí)別,結(jié)果顯示我們提出的KGTA-BART數(shù)據(jù)增強(qiáng)方法也都獲得了最佳效果。

在對(duì)抗訓(xùn)練層面上,我們基于未增強(qiáng)的數(shù)據(jù)比較各種基線(xiàn)的對(duì)抗訓(xùn)練方式如表3,發(fā)現(xiàn)虛擬對(duì)抗在石油煉化領(lǐng)域和娛樂(lè)領(lǐng)域,它的F1值相比于性能最佳的對(duì)抗方式有著0.59和0.24的提升,這證明了虛擬對(duì)抗的有效性。


表2 實(shí)驗(yàn)結(jié)果,從NER方法和數(shù)據(jù)增強(qiáng)方法層面驗(yàn)證我們的方法的有效性



表3 實(shí)驗(yàn)結(jié)果,從對(duì)抗訓(xùn)練層面驗(yàn)證我們的方法的有效性

結(jié)論:

我們提出利用從結(jié)構(gòu)化和半結(jié)構(gòu)化信息中提取的實(shí)體和關(guān)系,使用KGTA-BART數(shù)據(jù)增強(qiáng)方法創(chuàng)建用于文本生成的知識(shí)圖譜。此外,我們還開(kāi)發(fā)了中文命名實(shí)體識(shí)別模型VA-BART,結(jié)合BART作為編碼層,并將虛擬對(duì)抗應(yīng)用在中文命名實(shí)體識(shí)別任務(wù),在標(biāo)注數(shù)據(jù)稀缺時(shí)更好地捕捉文本中的上下文信息,增強(qiáng)了模型對(duì)于未見(jiàn)過(guò)的樣本的泛化能力。我們的大量實(shí)驗(yàn)證明,在石油煉化和娛樂(lè)領(lǐng)域,中文命名實(shí)體識(shí)別的性能有了顯著提高。同時(shí)在未來(lái),我們將在英文專(zhuān)業(yè)領(lǐng)域數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),證明我們的方法同樣適用于其他語(yǔ)言數(shù)據(jù)。

作者簡(jiǎn)介:

王智廣,教授,博士生導(dǎo)師,北京市教學(xué)名師。中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)高級(jí)會(huì)員,全國(guó)高校實(shí)驗(yàn)室工作研究會(huì)信息技術(shù)專(zhuān)家指導(dǎo)委員會(huì)委員,全國(guó)高校計(jì)算機(jī)專(zhuān)業(yè)(本科)實(shí)驗(yàn)教材與實(shí)驗(yàn)室環(huán)境開(kāi)發(fā)專(zhuān)家委員會(huì)委員,北京市計(jì)算機(jī)教育研究會(huì)常務(wù)理事。長(zhǎng)期從事分布式并行計(jì)算、三維可視化、計(jì)算機(jī)視覺(jué)、知識(shí)圖譜方面的研究工作,主持或承擔(dān)國(guó)家重大科技專(zhuān)項(xiàng)子任務(wù)、國(guó)家重點(diǎn)研發(fā)計(jì)劃子課題、國(guó)家自然科學(xué)基金、北京市教委科研課題、北京市重點(diǎn)實(shí)驗(yàn)室課題、地方政府委托課題以及企業(yè)委托課題20余項(xiàng),在國(guó)內(nèi)外重要學(xué)術(shù)會(huì)議和期刊上合作發(fā)表學(xué)術(shù)論文70余篇,培養(yǎng)了100余名碩士博士研究生。