中文題目:面向疫情防控領(lǐng)域中文事件抽取
論文題目:Chinese Event Extraction for Epidemic Prevention and Control Domain
錄用會(huì)議:The 2024 Twentieth International Conference on Intelligent Computing (CCF C)
作者列表:
1) 李曉雪 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 碩23
2) 王智廣 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)系 教師
3) 劉志強(qiáng) 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 碩23
4) 祝留宇 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 碩23
5) 葛賽賽 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 碩19
6) 魯 強(qiáng) 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 智能科學(xué)與技術(shù)系 教師
摘要:
事件抽取是信息抽取的熱點(diǎn)研究?jī)?nèi)容,本文研究疫情防控領(lǐng)域的事件抽取任務(wù),該任務(wù)研究中還存在很多問(wèn)題,如當(dāng)前沒(méi)有針對(duì)疫情防控領(lǐng)域事件的數(shù)據(jù)集;存在長(zhǎng)觸發(fā)詞和多觸發(fā)詞情況導(dǎo)致機(jī)器出現(xiàn)漏抽、錯(cuò)抽問(wèn)題;事件論元分布不平衡影響抽取結(jié)果等。針對(duì)以上問(wèn)題,該文首先構(gòu)建了針對(duì)重大疫情防控事件的數(shù)據(jù)集EEPCD;接著提出基于依存句法分析的事件觸發(fā)詞抽取算法A-DPETE,該算法通過(guò)依存句法分析技術(shù),使得模型在長(zhǎng)觸發(fā)詞和多觸發(fā)詞抽取準(zhǔn)確率上有了較大提升;最后構(gòu)建了觸發(fā)詞特征嵌入的事件論元抽取模型EM-TFEEA,該模型將事件觸發(fā)詞抽取與事件論元抽取結(jié)合起來(lái),同時(shí)使用分組抽取原則,提高了事件論元抽取的準(zhǔn)確性。實(shí)驗(yàn)結(jié)果表明,在 EEPCD 數(shù)據(jù)集和 ACE2005 中文數(shù)據(jù)集上,其效果優(yōu)于傳統(tǒng)技術(shù)。在事件觸發(fā)詞抽取方面,準(zhǔn)確率、召回率和 F1 值最大提高了6.0%;在事件論元抽取方面,這些指標(biāo)最大提高了3.0%。
設(shè)計(jì)與實(shí)現(xiàn):
1、A-DPETE算法的實(shí)現(xiàn)
在漢語(yǔ)中,我們可以觀(guān)察到一種普遍的語(yǔ)法現(xiàn)象,即各語(yǔ)言單位之間存在著支配和被支配、依存和被依存的關(guān)系。通過(guò)進(jìn)行依存句法分析,我們可以更好地理解句子中各成分之間的語(yǔ)義修飾關(guān)系,同時(shí)獲取長(zhǎng)距離的上下文信息。因此我們將使用依存句法分析技術(shù)進(jìn)行觸發(fā)詞抽取算法設(shè)計(jì)。
通過(guò)對(duì)含多觸發(fā)詞事件句的分析可得到規(guī)則如下:
規(guī)則1:從詞性上看,如果核心詞是動(dòng)詞,那么就將該觸發(fā)詞添加到觸發(fā)詞鏈。否則考慮與依存句法分析得到的核心詞并列的動(dòng)詞。
規(guī)則2:如果某動(dòng)詞與核心詞并列,但未與核心詞相鄰,則將該動(dòng)詞添加到事件觸發(fā)詞鏈中。若與核心詞相鄰,則可考慮是否構(gòu)成長(zhǎng)觸發(fā)詞問(wèn)題。
規(guī)則3:從詞性上看,如果核心詞不是動(dòng)詞,同時(shí)也沒(méi)有與核心詞并列的動(dòng)詞,那么該事件句就不會(huì)生成觸發(fā)詞鏈。
針對(duì)以上3個(gè)規(guī)則,可得出觸發(fā)詞鏈生成算法,如算法1所示。

通過(guò)對(duì)含長(zhǎng)觸發(fā)詞事件句的分析可得到規(guī)則如下:
規(guī)則4:依存句法分析得到的核心詞如果沒(méi)有相鄰的動(dòng)詞,那么不會(huì)構(gòu)成長(zhǎng)觸發(fā)詞。
規(guī)則5:如果核心動(dòng)詞與相鄰動(dòng)詞的句法依存關(guān)系是并列關(guān)系,那么將構(gòu)成長(zhǎng)觸發(fā)詞;否則,將不會(huì)構(gòu)成長(zhǎng)觸發(fā)詞。
規(guī)則6:如果核心詞詞性不是動(dòng)詞,那么不會(huì)構(gòu)成長(zhǎng)觸發(fā)詞。
根據(jù)規(guī)則可以得到算法2。

2、EM-TFEEA模型的構(gòu)建
圖3展示了觸發(fā)詞語(yǔ)義特征嵌入的事件論元抽取模型的總體結(jié)構(gòu)圖。
模型的輸入是事件句加觸發(fā)詞的距離特征編碼。觸發(fā)詞的距離特征編碼定義為文本中所有字到觸發(fā)詞的相對(duì)距離,而觸發(fā)詞本身的距離編碼為0。觸發(fā)詞周?chē)膯卧~成為事件論元的概率更大,因此模型加入觸發(fā)詞距離特征來(lái)輔助事件論元抽取任務(wù)。該模型主要包括四個(gè)部分:①預(yù)訓(xùn)練層;②CLN層;③CRF層;④分類(lèi)器層。

圖1 EM-TFEEA模型結(jié)構(gòu)圖
(1)預(yù)訓(xùn)練層:使用MacBERT預(yù)訓(xùn)練模型提升對(duì)文本語(yǔ)義的理解能力,尤其是觸發(fā)詞與事件論元間的語(yǔ)義關(guān)系。
(2)條件層歸一化 (CLN):使用語(yǔ)義信息作為一個(gè)額外的條件,與詞向量一起輸入到神經(jīng)網(wǎng)絡(luò)的輸入層中。在網(wǎng)絡(luò)的中間層中,使用 CLN進(jìn)行歸一化,從而使得不同的語(yǔ)義信息可以自適應(yīng)地學(xué)習(xí)到適合的歸一化參數(shù)。最后,可以將歸一化后的表示輸入到一個(gè)分類(lèi)器或者序列標(biāo)注模型中,用于抽取事件論元。
(3)條件隨機(jī)場(chǎng) (CRF):在序列標(biāo)注任務(wù)中使用CRF模型,定義不同事件類(lèi)型的標(biāo)簽集和標(biāo)簽轉(zhuǎn)移矩陣,增強(qiáng)模型的泛化能力和準(zhǔn)確性。
(4)分類(lèi)器:本文使用兩個(gè)二分類(lèi)器,將時(shí)間和地點(diǎn)作為一組,主體和客體作為一組,以降低事件論元分布不平衡對(duì)模型的準(zhǔn)確率、召回率以及F1值的影響。
實(shí)驗(yàn)結(jié)果及分析:
1、觸發(fā)詞抽取算法的實(shí)驗(yàn)結(jié)果及分析
表1和表2顯示,本文提出的觸發(fā)詞抽取算法在EEPCD數(shù)據(jù)集和ACE 2005數(shù)據(jù)集上都表現(xiàn)良好。這是由于本文提出的抽取算法考慮了長(zhǎng)觸發(fā)詞和多觸發(fā)詞的現(xiàn)象,對(duì)包含長(zhǎng)觸發(fā)詞和多觸發(fā)詞的事件句進(jìn)行了詳細(xì)的分析和理解,同時(shí)利用依存句法分析工具來(lái)更好地捕捉觸發(fā)詞之間的關(guān)系,并最大限度地減少它們的遺漏。
表1 ACE2005數(shù)據(jù)集上算法的指標(biāo)對(duì)比結(jié)果

表2 EEPCD數(shù)據(jù)集上算法的指標(biāo)對(duì)比結(jié)果

2、 事件論元抽取模型實(shí)驗(yàn)結(jié)果及分析:
(1)對(duì)比實(shí)驗(yàn):
本文設(shè)置了對(duì)比實(shí)驗(yàn),在EEPCD數(shù)據(jù)集與ACE2005數(shù)據(jù)集上與其他主流算法對(duì)比。通過(guò)表3可以看出,本文提出的模型,在EEPCD數(shù)據(jù)集上無(wú)論是準(zhǔn)確率、召回率還是F1值都有顯著提升;而在A(yíng)CE 2005數(shù)據(jù)集上雖然召回率沒(méi)有提升,但在準(zhǔn)確率和F1值上都明顯優(yōu)于其他模型。
表3對(duì)比實(shí)驗(yàn)結(jié)果

(2)消融實(shí)驗(yàn):
通過(guò)五組消融實(shí)驗(yàn),可以看到在面向疫情防控領(lǐng)域新聞數(shù)據(jù)集上,各個(gè)模塊對(duì)BERT-CRF模型都有提升效果,在使用MacBERT替換成BERT的同時(shí)加入CLN層,并使用論元分組抽取的策略,使本章模型得到了最大程度地提升。綜上所述,本章模型能有效地抽取事件論元。
表4 消融實(shí)驗(yàn)結(jié)果

結(jié)論:
針對(duì)重大疫情防控事件缺乏數(shù)據(jù)集的問(wèn)題,本文初步構(gòu)建了一個(gè)專(zhuān)注于該領(lǐng)域的數(shù)據(jù)集。然后,針對(duì)事件句子中由于多觸發(fā)詞和長(zhǎng)觸發(fā)詞的存在而導(dǎo)致的錯(cuò)抽、漏抽問(wèn)題,本文采用了一種基于依存句法分析的事件觸發(fā)詞抽取算法。最后,針對(duì)事件觸發(fā)詞和事件論元抽取任務(wù)分離以及事件論元分布不平衡導(dǎo)致的抽取精度低的問(wèn)題,開(kāi)發(fā)了一種嵌入觸發(fā)詞特征的事件論元抽取模型。實(shí)驗(yàn)結(jié)果表明,所提出的方法應(yīng)用于EEPCD數(shù)據(jù)集和ACE2005中文數(shù)據(jù)集,均優(yōu)于傳統(tǒng)技術(shù)。事件觸發(fā)詞抽取的準(zhǔn)確性、召回率和F1分?jǐn)?shù)最高提高了6.0%,而事件論元抽取的這些指標(biāo)最高提高了3.0%。這項(xiàng)工作可以輔助下游的知識(shí)圖譜構(gòu)建任務(wù),能更好地幫助公眾了解疫情發(fā)展趨勢(shì),進(jìn)行有效的預(yù)防。然而,就傳統(tǒng)觸發(fā)詞抽取的準(zhǔn)確性以及觸發(fā)詞抽取結(jié)果對(duì)后續(xù)結(jié)果的影響方面,本文提出的方法尚待優(yōu)化。今后的工作將側(cè)重于提高這些領(lǐng)域的效果。
作者簡(jiǎn)介:
王智廣,教授,博士生導(dǎo)師,北京市教學(xué)名師。中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)高級(jí)會(huì)員,全國(guó)高校實(shí)驗(yàn)室工作研究會(huì)信息技術(shù)專(zhuān)家指導(dǎo)委員會(huì)委員,全國(guó)高校計(jì)算機(jī)專(zhuān)業(yè)(本科)實(shí)驗(yàn)教材與實(shí)驗(yàn)室環(huán)境開(kāi)發(fā)專(zhuān)家委員會(huì)委員,北京市計(jì)算機(jī)教育研究會(huì)常務(wù)理事。長(zhǎng)期從事分布式并行計(jì)算、三維可視化、計(jì)算機(jī)視覺(jué)、知識(shí)圖譜方面的研究工作,主持或承擔(dān)國(guó)家重大科技專(zhuān)項(xiàng)子任務(wù)、國(guó)家重點(diǎn)研發(fā)計(jì)劃子課題、國(guó)家自然科學(xué)基金、北京市教委科研課題、北京市重點(diǎn)實(shí)驗(yàn)室課題、地方政府委托課題以及企業(yè)委托課題20余項(xiàng),在國(guó)內(nèi)外重要學(xué)術(shù)會(huì)議和期刊上合作發(fā)表學(xué)術(shù)論文70余篇,培養(yǎng)了100余名碩士博士研究生。