金沙集团杨利民个人简历照片,Esball,厦门金沙集团有限责任公司怎么样

學(xué)校主頁(yè)

您所在的位置：首頁(yè) - 科學(xué)研究 - 科研動(dòng)態(tài)

科研動(dòng)態(tài)

基于知識(shí)圖譜-文本的數(shù)據(jù)增強(qiáng)和虛擬對(duì)抗的中文專(zhuān)業(yè)領(lǐng)域命名實(shí)體識(shí)別

日期：2024-07-18 | 訪(fǎng)問(wèn)量：

中文題目：基于知識(shí)圖譜-文本的數(shù)據(jù)增強(qiáng)和虛擬對(duì)抗的中文專(zhuān)業(yè)領(lǐng)域命名實(shí)體識(shí)別

論文題目：Data Augmentation with Knowledge Graph-to-Text and Virtual Adversary for Specialized-Domain Chinese NER

錄用期刊/會(huì)議：International Joint Conference on Neural Networks (CCF C)

作者列表：

1）胡思潁中國(guó)石油大學(xué)（北京）人工智能學(xué)院碩22

2）王智廣中國(guó)石油大學(xué)（北京）人工智能學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)系教師

3）張冰彬中國(guó)石油大學(xué)（北京）人工智能學(xué)院碩22

4）王天中國(guó)石油大學(xué)（北京）人工智能學(xué)院碩21

5）劉志強(qiáng) 中國(guó)石油大學(xué)（北京）人工智能學(xué)院碩23

6）魯強(qiáng) 中國(guó)石油大學(xué)（北京）人工智能學(xué)院智能科學(xué)與技術(shù)系教師

摘要:

中文命名實(shí)體識(shí)別在通用領(lǐng)域得到了很好的研究,但實(shí)際工程應(yīng)用中更關(guān)注專(zhuān)業(yè)領(lǐng)域中的中文命名實(shí)體識(shí)別。然而，由于專(zhuān)業(yè)領(lǐng)域下標(biāo)注數(shù)據(jù)稀缺，命名實(shí)體識(shí)別性能仍然欠佳。本文主要針對(duì)標(biāo)注樣本稀缺問(wèn)題進(jìn)行了兩點(diǎn)改進(jìn)，一方面，我們提出了Knowledge Graph Text Alignment with BART（KGTA-BART）作為全新的數(shù)據(jù)增強(qiáng)方法。與之前的研究相比，KGTA-BART首次引入從結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)所提取的知識(shí)圖譜，將知識(shí)圖譜的圖信息與已標(biāo)注文本數(shù)據(jù)的語(yǔ)義信息對(duì)齊，之后基于BART模型將知識(shí)圖譜生成高質(zhì)量的語(yǔ)義文本，在標(biāo)注數(shù)據(jù)稀缺時(shí)擴(kuò)展數(shù)據(jù)集。另一方面，我們提出了Virtual Adversary with BART（VA-BART）命名實(shí)體識(shí)別模型。VA-BART模型結(jié)合BART作為編碼層，并將虛擬對(duì)抗應(yīng)用在中文命名實(shí)體識(shí)別任務(wù)，在標(biāo)注數(shù)據(jù)稀缺時(shí)更好地捕捉文本中的上下文信息，增強(qiáng)了模型對(duì)于未見(jiàn)過(guò)的樣本的泛化能力。實(shí)驗(yàn)結(jié)果表明，基于KGTA-BART的VA-BART方法在我們的中文專(zhuān)業(yè)領(lǐng)域數(shù)據(jù)集中對(duì)比基線(xiàn)方法有實(shí)質(zhì)性的改進(jìn)。

背景與動(dòng)機(jī):

命名實(shí)體識(shí)別(NER)是一項(xiàng)重要的自然語(yǔ)言處理任務(wù)。中文命名實(shí)體識(shí)別(CNER)作為NER的一個(gè)重要子模塊，這些年來(lái)通過(guò)預(yù)訓(xùn)練模型，研究者們常常專(zhuān)注于通用領(lǐng)域的CNER，然而在實(shí)際工程應(yīng)用中，專(zhuān)業(yè)領(lǐng)域的CNER往往有著更重要的影響。通過(guò)專(zhuān)業(yè)領(lǐng)域CNER并用于關(guān)系抽取、問(wèn)答系統(tǒng)、機(jī)器翻譯等任務(wù)，可以構(gòu)建領(lǐng)域智能化系統(tǒng)，提高文本處理和語(yǔ)言理解的效果，幫助人們獲取領(lǐng)域知識(shí)。例如，石油煉化領(lǐng)域，從領(lǐng)域文檔中挖掘出有價(jià)值的信息和知識(shí)，對(duì)加快石油領(lǐng)域數(shù)字化轉(zhuǎn)型、智能化發(fā)展有著重要意義。但在進(jìn)行這類(lèi)專(zhuān)業(yè)領(lǐng)域的CNER時(shí)，目前主要面臨著標(biāo)注數(shù)據(jù)稀缺的挑戰(zhàn)，導(dǎo)致命名實(shí)體識(shí)別性能欠佳。

設(shè)計(jì)與實(shí)現(xiàn):

我們提出了數(shù)據(jù)增強(qiáng)方法KGTA-BART與中文命名實(shí)體識(shí)別模型VA-BART進(jìn)行專(zhuān)業(yè)領(lǐng)域CNER任務(wù)。CNER任務(wù)的流程包括:

Step 1:KGTA-BART網(wǎng)絡(luò)架構(gòu)。通過(guò)數(shù)據(jù)增強(qiáng)方法KGTA-BART進(jìn)行模型訓(xùn)練。

Step 2:數(shù)據(jù)增強(qiáng)文本生成。使用訓(xùn)練完的模型對(duì)知識(shí)圖譜與文本對(duì)齊，并進(jìn)行文本生成作為命名實(shí)體識(shí)別的增強(qiáng)文本。

Step 3:VA-BART中文命名實(shí)體識(shí)別模型。生成文本作為增強(qiáng)文本連同已標(biāo)注文本作用于命名實(shí)體識(shí)別模型VA-BART，完成命名實(shí)體識(shí)別任務(wù)。

KGTA-BART網(wǎng)絡(luò)架構(gòu)

圖1展示了KGTA-BART數(shù)據(jù)增強(qiáng)方法模型訓(xùn)練的結(jié)構(gòu)。圖1的(a)部分展示了向量表示對(duì)齊模塊。由于已標(biāo)注文本中不僅包含了語(yǔ)義維度信息，同時(shí)可提取出圖維度信息。我們提出通過(guò)文本編碼器和圖編碼器可以分別獲取到文本維度和圖維度實(shí)體向量。為了彌合文本維度和圖維度間的差距，我們通過(guò)使用歐幾里德距離來(lái)模擬向量表示對(duì)齊。向量表示對(duì)齊能夠有效地將已標(biāo)注文本中的文本信息和圖信息對(duì)齊。其為后續(xù)知識(shí)圖譜與文本對(duì)齊提供有力的幫助。

圖1的(b)部分展示了基于句式的掩碼補(bǔ)全模塊，我們結(jié)合BART模型，提出了一種基于掩碼句式的模型訓(xùn)練方式，完成Maskfilling訓(xùn)練。主要包括掩碼句式構(gòu)建和句式文本生成訓(xùn)練兩個(gè)部分。

圖1 KGTA-BART 數(shù)據(jù)增強(qiáng)方法模型訓(xùn)練的概述

數(shù)據(jù)增強(qiáng)文本生成

在KGTA-BART訓(xùn)練完之后，使用訓(xùn)練完的模型進(jìn)行文本生成，概述圖如圖2所示。在文本生成階段，首先將含圖信息的知識(shí)圖譜與含語(yǔ)義信息的已標(biāo)注的文本中與知識(shí)圖譜標(biāo)簽類(lèi)型相同的文本進(jìn)行編碼并基于相似度計(jì)算進(jìn)行圖文對(duì)齊匹配相似度最高的文本，之后通過(guò)掩碼句式構(gòu)建并基于BART生成句式文本，最后進(jìn)行實(shí)體填充生成增強(qiáng)文本。

圖2 KGTA-BART 數(shù)據(jù)增強(qiáng)方法的文本生成概述

VA-BART中文命名實(shí)體識(shí)別模型

生成文本作為增強(qiáng)文本連同已標(biāo)注文本作用于命名實(shí)體識(shí)別模型VA-BART。模型的主要結(jié)構(gòu)如圖3所示，給定一個(gè)輸入句子，然后輸入到預(yù)訓(xùn)練的BART模塊中。為了進(jìn)一步增強(qiáng)上下文建模，在BART計(jì)算之后，采用雙向LSTM生成最終的單詞表示。最后使用條件隨機(jī)場(chǎng)進(jìn)行token的預(yù)測(cè)。為了提高模型泛化性，參考虛擬對(duì)抗的機(jī)制，我們將其運(yùn)用到了中文命名實(shí)體識(shí)別任務(wù)中。

圖3 VA-BART CNER 模型結(jié)構(gòu)

中文專(zhuān)業(yè)領(lǐng)域數(shù)據(jù)集

由于現(xiàn)存的CNER公共數(shù)據(jù)集中基本都是通用領(lǐng)域的數(shù)據(jù)集，而一些專(zhuān)業(yè)領(lǐng)域的數(shù)據(jù)集例如中文醫(yī)學(xué)領(lǐng)域數(shù)據(jù)集中又沒(méi)有對(duì)應(yīng)的由結(jié)構(gòu)化和半結(jié)構(gòu)化的信息中提取實(shí)體關(guān)系從而構(gòu)建的知識(shí)圖譜。因此，為了落實(shí)實(shí)際應(yīng)用以及檢驗(yàn)我們方法的有效性，我們提出了石油煉化領(lǐng)域的標(biāo)注數(shù)據(jù)集以及該領(lǐng)域從結(jié)構(gòu)化和半結(jié)構(gòu)化的信息中提取實(shí)體關(guān)系構(gòu)建出來(lái)的知識(shí)圖譜。同時(shí)為了驗(yàn)證模型的泛化性，我們對(duì)中文關(guān)系抽取數(shù)據(jù)集DuIE2.0進(jìn)行篩選，將其中的實(shí)體類(lèi)別進(jìn)行細(xì)粒度劃分，最后形成娛樂(lè)領(lǐng)域標(biāo)注數(shù)據(jù)集，并模擬了娛樂(lè)領(lǐng)域只含有圖信息的知識(shí)圖譜。兩個(gè)數(shù)據(jù)集的詳細(xì)信息如表1所示。

表1 數(shù)據(jù)集詳細(xì)信息

實(shí)驗(yàn)結(jié)果及分析:

根據(jù)表2的結(jié)果，我們提出的基于KGTA-BART的VA-BART方法在石油煉化以及娛樂(lè)兩個(gè)中文專(zhuān)業(yè)領(lǐng)域的NER方法和數(shù)據(jù)增強(qiáng)方法層面上皆表現(xiàn)出卓越的效果。首先，在NER方法層面上，將一些預(yù)訓(xùn)練模型作為基線(xiàn)，我們的命名實(shí)體識(shí)別模型相對(duì)于性能最佳的基線(xiàn)模型，在無(wú)增強(qiáng)數(shù)據(jù)條件下都獲得了最佳效果。此外，在數(shù)據(jù)增強(qiáng)的層面上，經(jīng)過(guò)各種數(shù)據(jù)增強(qiáng)方法擴(kuò)展的數(shù)據(jù)集均基于我們的VA-BART上進(jìn)行命名實(shí)體識(shí)別，結(jié)果顯示我們提出的KGTA-BART數(shù)據(jù)增強(qiáng)方法也都獲得了最佳效果。

在對(duì)抗訓(xùn)練層面上，我們基于未增強(qiáng)的數(shù)據(jù)比較各種基線(xiàn)的對(duì)抗訓(xùn)練方式如表3，發(fā)現(xiàn)虛擬對(duì)抗在石油煉化領(lǐng)域和娛樂(lè)領(lǐng)域，它的F1值相比于性能最佳的對(duì)抗方式有著0.59和0.24的提升，這證明了虛擬對(duì)抗的有效性。

表2 實(shí)驗(yàn)結(jié)果，從NER方法和數(shù)據(jù)增強(qiáng)方法層面驗(yàn)證我們的方法的有效性

表3 實(shí)驗(yàn)結(jié)果，從對(duì)抗訓(xùn)練層面驗(yàn)證我們的方法的有效性

結(jié)論:

我們提出利用從結(jié)構(gòu)化和半結(jié)構(gòu)化信息中提取的實(shí)體和關(guān)系，使用KGTA-BART數(shù)據(jù)增強(qiáng)方法創(chuàng)建用于文本生成的知識(shí)圖譜。此外，我們還開(kāi)發(fā)了中文命名實(shí)體識(shí)別模型VA-BART，結(jié)合BART作為編碼層，并將虛擬對(duì)抗應(yīng)用在中文命名實(shí)體識(shí)別任務(wù)，在標(biāo)注數(shù)據(jù)稀缺時(shí)更好地捕捉文本中的上下文信息，增強(qiáng)了模型對(duì)于未見(jiàn)過(guò)的樣本的泛化能力。我們的大量實(shí)驗(yàn)證明，在石油煉化和娛樂(lè)領(lǐng)域，中文命名實(shí)體識(shí)別的性能有了顯著提高。同時(shí)在未來(lái)，我們將在英文專(zhuān)業(yè)領(lǐng)域數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)，證明我們的方法同樣適用于其他語(yǔ)言數(shù)據(jù)。

作者簡(jiǎn)介:

王智廣，教授，博士生導(dǎo)師，北京市教學(xué)名師。中國(guó)計(jì)算機(jī)學(xué)會(huì)（CCF）高級(jí)會(huì)員，全國(guó)高校實(shí)驗(yàn)室工作研究會(huì)信息技術(shù)專(zhuān)家指導(dǎo)委員會(huì)委員，全國(guó)高校計(jì)算機(jī)專(zhuān)業(yè)（本科）實(shí)驗(yàn)教材與實(shí)驗(yàn)室環(huán)境開(kāi)發(fā)專(zhuān)家委員會(huì)委員，北京市計(jì)算機(jī)教育研究會(huì)常務(wù)理事。長(zhǎng)期從事分布式并行計(jì)算、三維可視化、計(jì)算機(jī)視覺(jué)、知識(shí)圖譜方面的研究工作，主持或承擔(dān)國(guó)家重大科技專(zhuān)項(xiàng)子任務(wù)、國(guó)家重點(diǎn)研發(fā)計(jì)劃子課題、國(guó)家自然科學(xué)基金、北京市教委科研課題、北京市重點(diǎn)實(shí)驗(yàn)室課題、地方政府委托課題以及企業(yè)委托課題20余項(xiàng)，在國(guó)內(nèi)外重要學(xué)術(shù)會(huì)議和期刊上合作發(fā)表學(xué)術(shù)論文70余篇，培養(yǎng)了100余名碩士博士研究生。

金沙娱乐场官方网-澳门金沙会官网-金沙集团股价实情信息最新

科研動(dòng)態(tài)

基于知識(shí)圖譜-文本的數(shù)據(jù)增強(qiáng)和虛擬對(duì)抗的中文專(zhuān)業(yè)領(lǐng)域命名實(shí)體識(shí)別