金沙娱乐场官方网-澳门金沙会官网-金沙集团股价实情信息最新

科研動(dòng)態(tài)

面向疫情防控領(lǐng)域中文事件抽取

中文題目:面向疫情防控領(lǐng)域中文事件抽取

論文題目Chinese Event Extraction for Epidemic Prevention and Control Domain

錄用會(huì)議The 2024 Twentieth International Conference on Intelligent Computing (CCF C)

作者列表

1) 李曉雪 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 碩23

2) 王智廣 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)系 教師

3) 劉志強(qiáng) 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 碩23

4) 祝留宇 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 碩23

5) 葛賽賽 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 碩19

6) 魯 強(qiáng) 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 智能科學(xué)與技術(shù)系 教師

摘要:

事件抽取是信息抽取的熱點(diǎn)研究?jī)?nèi)容,本文研究疫情防控領(lǐng)域的事件抽取任務(wù),該任務(wù)研究中還存在很多問(wèn)題,如當(dāng)前沒(méi)有針對(duì)疫情防控領(lǐng)域事件的數(shù)據(jù)集;存在長(zhǎng)觸發(fā)詞和多觸發(fā)詞情況導(dǎo)致機(jī)器出現(xiàn)漏抽、錯(cuò)抽問(wèn)題;事件論元分布不平衡影響抽取結(jié)果等。針對(duì)以上問(wèn)題,該文首先構(gòu)建了針對(duì)重大疫情防控事件的數(shù)據(jù)集EEPCD;接著提出基于依存句法分析的事件觸發(fā)詞抽取算法A-DPETE,該算法通過(guò)依存句法分析技術(shù),使得模型在長(zhǎng)觸發(fā)詞和多觸發(fā)詞抽取準(zhǔn)確率上有了較大提升;最后構(gòu)建了觸發(fā)詞特征嵌入的事件論元抽取模型EM-TFEEA,該模型將事件觸發(fā)詞抽取與事件論元抽取結(jié)合起來(lái),同時(shí)使用分組抽取原則,提高了事件論元抽取的準(zhǔn)確性。實(shí)驗(yàn)結(jié)果表明,在 EEPCD 數(shù)據(jù)集和 ACE2005 中文數(shù)據(jù)集上,其效果優(yōu)于傳統(tǒng)技術(shù)。在事件觸發(fā)詞抽取方面,準(zhǔn)確率、召回率和 F1 值最大提高了6.0%;在事件論元抽取方面,這些指標(biāo)最大提高了3.0%。

設(shè)計(jì)與實(shí)現(xiàn):

1、A-DPETE算法的實(shí)現(xiàn)

在漢語(yǔ)中,我們可以觀(guān)察到一種普遍的語(yǔ)法現(xiàn)象,即各語(yǔ)言單位之間存在著支配和被支配、依存和被依存的關(guān)系。通過(guò)進(jìn)行依存句法分析,我們可以更好地理解句子中各成分之間的語(yǔ)義修飾關(guān)系,同時(shí)獲取長(zhǎng)距離的上下文信息。因此我們將使用依存句法分析技術(shù)進(jìn)行觸發(fā)詞抽取算法設(shè)計(jì)。

通過(guò)對(duì)含多觸發(fā)詞事件句的分析可得到規(guī)則如下:

規(guī)則1:從詞性上看,如果核心詞是動(dòng)詞,那么就將該觸發(fā)詞添加到觸發(fā)詞鏈。否則考慮與依存句法分析得到的核心詞并列的動(dòng)詞。

規(guī)則2:如果某動(dòng)詞與核心詞并列,但未與核心詞相鄰,則將該動(dòng)詞添加到事件觸發(fā)詞鏈中。若與核心詞相鄰,則可考慮是否構(gòu)成長(zhǎng)觸發(fā)詞問(wèn)題。

規(guī)則3:從詞性上看,如果核心詞不是動(dòng)詞,同時(shí)也沒(méi)有與核心詞并列的動(dòng)詞,那么該事件句就不會(huì)生成觸發(fā)詞鏈。

針對(duì)以上3個(gè)規(guī)則,可得出觸發(fā)詞鏈生成算法,如算法1所示。


通過(guò)對(duì)含長(zhǎng)觸發(fā)詞事件句的分析可得到規(guī)則如下:

規(guī)則4:依存句法分析得到的核心詞如果沒(méi)有相鄰的動(dòng)詞,那么不會(huì)構(gòu)成長(zhǎng)觸發(fā)詞。

規(guī)則5:如果核心動(dòng)詞與相鄰動(dòng)詞的句法依存關(guān)系是并列關(guān)系,那么將構(gòu)成長(zhǎng)觸發(fā)詞;否則,將不會(huì)構(gòu)成長(zhǎng)觸發(fā)詞。

規(guī)則6:如果核心詞詞性不是動(dòng)詞,那么不會(huì)構(gòu)成長(zhǎng)觸發(fā)詞。

根據(jù)規(guī)則可以得到算法2。


2、EM-TFEEA模型的構(gòu)建

圖3展示了觸發(fā)詞語(yǔ)義特征嵌入的事件論元抽取模型的總體結(jié)構(gòu)圖。

模型的輸入是事件句加觸發(fā)詞的距離特征編碼。觸發(fā)詞的距離特征編碼定義為文本中所有字到觸發(fā)詞的相對(duì)距離,而觸發(fā)詞本身的距離編碼為0。觸發(fā)詞周?chē)膯卧~成為事件論元的概率更大,因此模型加入觸發(fā)詞距離特征來(lái)輔助事件論元抽取任務(wù)。該模型主要包括四個(gè)部分:①預(yù)訓(xùn)練層;②CLN層;③CRF層;④分類(lèi)器層。



圖1 EM-TFEEA模型結(jié)構(gòu)圖


(1)預(yù)訓(xùn)練層:使用MacBERT預(yù)訓(xùn)練模型提升對(duì)文本語(yǔ)義的理解能力,尤其是觸發(fā)詞與事件論元間的語(yǔ)義關(guān)系。

(2)條件層歸一化 (CLN):使用語(yǔ)義信息作為一個(gè)額外的條件,與詞向量一起輸入到神經(jīng)網(wǎng)絡(luò)的輸入層中。在網(wǎng)絡(luò)的中間層中,使用 CLN進(jìn)行歸一化,從而使得不同的語(yǔ)義信息可以自適應(yīng)地學(xué)習(xí)到適合的歸一化參數(shù)。最后,可以將歸一化后的表示輸入到一個(gè)分類(lèi)器或者序列標(biāo)注模型中,用于抽取事件論元。

(3)條件隨機(jī)場(chǎng) (CRF):在序列標(biāo)注任務(wù)中使用CRF模型,定義不同事件類(lèi)型的標(biāo)簽集和標(biāo)簽轉(zhuǎn)移矩陣,增強(qiáng)模型的泛化能力和準(zhǔn)確性。

(4)分類(lèi)器:本文使用兩個(gè)二分類(lèi)器,將時(shí)間和地點(diǎn)作為一組,主體和客體作為一組,以降低事件論元分布不平衡對(duì)模型的準(zhǔn)確率、召回率以及F1值的影響。

實(shí)驗(yàn)結(jié)果及分析:

1、觸發(fā)詞抽取算法的實(shí)驗(yàn)結(jié)果及分析

表1和表2顯示,本文提出的觸發(fā)詞抽取算法在EEPCD數(shù)據(jù)集和ACE 2005數(shù)據(jù)集上都表現(xiàn)良好。這是由于本文提出的抽取算法考慮了長(zhǎng)觸發(fā)詞和多觸發(fā)詞的現(xiàn)象,對(duì)包含長(zhǎng)觸發(fā)詞和多觸發(fā)詞的事件句進(jìn)行了詳細(xì)的分析和理解,同時(shí)利用依存句法分析工具來(lái)更好地捕捉觸發(fā)詞之間的關(guān)系,并最大限度地減少它們的遺漏。


表1 ACE2005數(shù)據(jù)集上算法的指標(biāo)對(duì)比結(jié)果

表2 EEPCD數(shù)據(jù)集上算法的指標(biāo)對(duì)比結(jié)果

2、 事件論元抽取模型實(shí)驗(yàn)結(jié)果及分析:

(1)對(duì)比實(shí)驗(yàn):

本文設(shè)置了對(duì)比實(shí)驗(yàn),在EEPCD數(shù)據(jù)集與ACE2005數(shù)據(jù)集上與其他主流算法對(duì)比。通過(guò)表3可以看出,本文提出的模型,在EEPCD數(shù)據(jù)集上無(wú)論是準(zhǔn)確率、召回率還是F1值都有顯著提升;而在A(yíng)CE 2005數(shù)據(jù)集上雖然召回率沒(méi)有提升,但在準(zhǔn)確率和F1值上都明顯優(yōu)于其他模型。

表3對(duì)比實(shí)驗(yàn)結(jié)果


(2)消融實(shí)驗(yàn):

通過(guò)五組消融實(shí)驗(yàn),可以看到在面向疫情防控領(lǐng)域新聞數(shù)據(jù)集上,各個(gè)模塊對(duì)BERT-CRF模型都有提升效果,在使用MacBERT替換成BERT的同時(shí)加入CLN層,并使用論元分組抽取的策略,使本章模型得到了最大程度地提升。綜上所述,本章模型能有效地抽取事件論元。

表4 消融實(shí)驗(yàn)結(jié)果


結(jié)論:

針對(duì)重大疫情防控事件缺乏數(shù)據(jù)集的問(wèn)題,本文初步構(gòu)建了一個(gè)專(zhuān)注于該領(lǐng)域的數(shù)據(jù)集。然后,針對(duì)事件句子中由于多觸發(fā)詞和長(zhǎng)觸發(fā)詞的存在而導(dǎo)致的錯(cuò)抽、漏抽問(wèn)題,本文采用了一種基于依存句法分析的事件觸發(fā)詞抽取算法。最后,針對(duì)事件觸發(fā)詞和事件論元抽取任務(wù)分離以及事件論元分布不平衡導(dǎo)致的抽取精度低的問(wèn)題,開(kāi)發(fā)了一種嵌入觸發(fā)詞特征的事件論元抽取模型。實(shí)驗(yàn)結(jié)果表明,所提出的方法應(yīng)用于EEPCD數(shù)據(jù)集和ACE2005中文數(shù)據(jù)集,均優(yōu)于傳統(tǒng)技術(shù)。事件觸發(fā)詞抽取的準(zhǔn)確性、召回率和F1分?jǐn)?shù)最高提高了6.0%,而事件論元抽取的這些指標(biāo)最高提高了3.0%。這項(xiàng)工作可以輔助下游的知識(shí)圖譜構(gòu)建任務(wù),能更好地幫助公眾了解疫情發(fā)展趨勢(shì),進(jìn)行有效的預(yù)防。然而,就傳統(tǒng)觸發(fā)詞抽取的準(zhǔn)確性以及觸發(fā)詞抽取結(jié)果對(duì)后續(xù)結(jié)果的影響方面,本文提出的方法尚待優(yōu)化。今后的工作將側(cè)重于提高這些領(lǐng)域的效果。

作者簡(jiǎn)介:

王智廣,教授,博士生導(dǎo)師,北京市教學(xué)名師。中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)高級(jí)會(huì)員,全國(guó)高校實(shí)驗(yàn)室工作研究會(huì)信息技術(shù)專(zhuān)家指導(dǎo)委員會(huì)委員,全國(guó)高校計(jì)算機(jī)專(zhuān)業(yè)(本科)實(shí)驗(yàn)教材與實(shí)驗(yàn)室環(huán)境開(kāi)發(fā)專(zhuān)家委員會(huì)委員,北京市計(jì)算機(jī)教育研究會(huì)常務(wù)理事。長(zhǎng)期從事分布式并行計(jì)算、三維可視化、計(jì)算機(jī)視覺(jué)、知識(shí)圖譜方面的研究工作,主持或承擔(dān)國(guó)家重大科技專(zhuān)項(xiàng)子任務(wù)、國(guó)家重點(diǎn)研發(fā)計(jì)劃子課題、國(guó)家自然科學(xué)基金、北京市教委科研課題、北京市重點(diǎn)實(shí)驗(yàn)室課題、地方政府委托課題以及企業(yè)委托課題20余項(xiàng),在國(guó)內(nèi)外重要學(xué)術(shù)會(huì)議和期刊上合作發(fā)表學(xué)術(shù)論文70余篇,培養(yǎng)了100余名碩士博士研究生。