娱乐城开户送彩金2015,金沙集团行政总裁级别高吗

學(xué)校主頁(yè)

您所在的位置：首頁(yè) - 科學(xué)研究 - 科研動(dòng)態(tài)

科研動(dòng)態(tài)

面向疫情防控領(lǐng)域中文事件抽取

日期：2024-07-23 | 訪(fǎng)問(wèn)量：

中文題目：面向疫情防控領(lǐng)域中文事件抽取

論文題目：Chinese Event Extraction for Epidemic Prevention and Control Domain

錄用會(huì)議：The 2024 Twentieth International Conference on Intelligent Computing (CCF C)

作者列表：

1）李曉雪中國(guó)石油大學(xué)（北京）人工智能學(xué)院碩23

2）王智廣中國(guó)石油大學(xué)（北京）人工智能學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)系教師

3）劉志強(qiáng) 中國(guó)石油大學(xué)（北京）人工智能學(xué)院碩23

4）祝留宇中國(guó)石油大學(xué)（北京）人工智能學(xué)院碩23

5）葛賽賽中國(guó)石油大學(xué)（北京）人工智能學(xué)院碩19

6）魯強(qiáng) 中國(guó)石油大學(xué)（北京）人工智能學(xué)院智能科學(xué)與技術(shù)系教師

摘要:

事件抽取是信息抽取的熱點(diǎn)研究?jī)?nèi)容，本文研究疫情防控領(lǐng)域的事件抽取任務(wù)，該任務(wù)研究中還存在很多問(wèn)題，如當(dāng)前沒(méi)有針對(duì)疫情防控領(lǐng)域事件的數(shù)據(jù)集；存在長(zhǎng)觸發(fā)詞和多觸發(fā)詞情況導(dǎo)致機(jī)器出現(xiàn)漏抽、錯(cuò)抽問(wèn)題；事件論元分布不平衡影響抽取結(jié)果等。針對(duì)以上問(wèn)題，該文首先構(gòu)建了針對(duì)重大疫情防控事件的數(shù)據(jù)集EEPCD；接著提出基于依存句法分析的事件觸發(fā)詞抽取算法A-DPETE，該算法通過(guò)依存句法分析技術(shù)，使得模型在長(zhǎng)觸發(fā)詞和多觸發(fā)詞抽取準(zhǔn)確率上有了較大提升；最后構(gòu)建了觸發(fā)詞特征嵌入的事件論元抽取模型EM-TFEEA，該模型將事件觸發(fā)詞抽取與事件論元抽取結(jié)合起來(lái)，同時(shí)使用分組抽取原則，提高了事件論元抽取的準(zhǔn)確性。實(shí)驗(yàn)結(jié)果表明，在 EEPCD 數(shù)據(jù)集和 ACE2005 中文數(shù)據(jù)集上，其效果優(yōu)于傳統(tǒng)技術(shù)。在事件觸發(fā)詞抽取方面，準(zhǔn)確率、召回率和 F1 值最大提高了6.0%；在事件論元抽取方面，這些指標(biāo)最大提高了3.0%。

設(shè)計(jì)與實(shí)現(xiàn):

1、A-DPETE算法的實(shí)現(xiàn)

在漢語(yǔ)中，我們可以觀(guān)察到一種普遍的語(yǔ)法現(xiàn)象，即各語(yǔ)言單位之間存在著支配和被支配、依存和被依存的關(guān)系。通過(guò)進(jìn)行依存句法分析，我們可以更好地理解句子中各成分之間的語(yǔ)義修飾關(guān)系，同時(shí)獲取長(zhǎng)距離的上下文信息。因此我們將使用依存句法分析技術(shù)進(jìn)行觸發(fā)詞抽取算法設(shè)計(jì)。

通過(guò)對(duì)含多觸發(fā)詞事件句的分析可得到規(guī)則如下：

規(guī)則1：從詞性上看，如果核心詞是動(dòng)詞，那么就將該觸發(fā)詞添加到觸發(fā)詞鏈。否則考慮與依存句法分析得到的核心詞并列的動(dòng)詞。

規(guī)則2：如果某動(dòng)詞與核心詞并列，但未與核心詞相鄰，則將該動(dòng)詞添加到事件觸發(fā)詞鏈中。若與核心詞相鄰，則可考慮是否構(gòu)成長(zhǎng)觸發(fā)詞問(wèn)題。

規(guī)則3：從詞性上看，如果核心詞不是動(dòng)詞，同時(shí)也沒(méi)有與核心詞并列的動(dòng)詞，那么該事件句就不會(huì)生成觸發(fā)詞鏈。

針對(duì)以上3個(gè)規(guī)則，可得出觸發(fā)詞鏈生成算法，如算法1所示。

通過(guò)對(duì)含長(zhǎng)觸發(fā)詞事件句的分析可得到規(guī)則如下：

規(guī)則4：依存句法分析得到的核心詞如果沒(méi)有相鄰的動(dòng)詞，那么不會(huì)構(gòu)成長(zhǎng)觸發(fā)詞。

規(guī)則5：如果核心動(dòng)詞與相鄰動(dòng)詞的句法依存關(guān)系是并列關(guān)系，那么將構(gòu)成長(zhǎng)觸發(fā)詞；否則，將不會(huì)構(gòu)成長(zhǎng)觸發(fā)詞。

規(guī)則6：如果核心詞詞性不是動(dòng)詞，那么不會(huì)構(gòu)成長(zhǎng)觸發(fā)詞。

根據(jù)規(guī)則可以得到算法2。

2、EM-TFEEA模型的構(gòu)建

圖3展示了觸發(fā)詞語(yǔ)義特征嵌入的事件論元抽取模型的總體結(jié)構(gòu)圖。

模型的輸入是事件句加觸發(fā)詞的距離特征編碼。觸發(fā)詞的距離特征編碼定義為文本中所有字到觸發(fā)詞的相對(duì)距離，而觸發(fā)詞本身的距離編碼為0。觸發(fā)詞周?chē)膯卧~成為事件論元的概率更大，因此模型加入觸發(fā)詞距離特征來(lái)輔助事件論元抽取任務(wù)。該模型主要包括四個(gè)部分：①預(yù)訓(xùn)練層；②CLN層；③CRF層；④分類(lèi)器層。

圖1 EM-TFEEA模型結(jié)構(gòu)圖

（1）預(yù)訓(xùn)練層：使用MacBERT預(yù)訓(xùn)練模型提升對(duì)文本語(yǔ)義的理解能力，尤其是觸發(fā)詞與事件論元間的語(yǔ)義關(guān)系。

（2）條件層歸一化 (CLN)：使用語(yǔ)義信息作為一個(gè)額外的條件，與詞向量一起輸入到神經(jīng)網(wǎng)絡(luò)的輸入層中。在網(wǎng)絡(luò)的中間層中，使用 CLN進(jìn)行歸一化，從而使得不同的語(yǔ)義信息可以自適應(yīng)地學(xué)習(xí)到適合的歸一化參數(shù)。最后，可以將歸一化后的表示輸入到一個(gè)分類(lèi)器或者序列標(biāo)注模型中，用于抽取事件論元。

（3）條件隨機(jī)場(chǎng) (CRF)：在序列標(biāo)注任務(wù)中使用CRF模型，定義不同事件類(lèi)型的標(biāo)簽集和標(biāo)簽轉(zhuǎn)移矩陣，增強(qiáng)模型的泛化能力和準(zhǔn)確性。

（4）分類(lèi)器：本文使用兩個(gè)二分類(lèi)器，將時(shí)間和地點(diǎn)作為一組，主體和客體作為一組，以降低事件論元分布不平衡對(duì)模型的準(zhǔn)確率、召回率以及F1值的影響。

實(shí)驗(yàn)結(jié)果及分析:

1、觸發(fā)詞抽取算法的實(shí)驗(yàn)結(jié)果及分析

表1和表2顯示，本文提出的觸發(fā)詞抽取算法在EEPCD數(shù)據(jù)集和ACE 2005數(shù)據(jù)集上都表現(xiàn)良好。這是由于本文提出的抽取算法考慮了長(zhǎng)觸發(fā)詞和多觸發(fā)詞的現(xiàn)象，對(duì)包含長(zhǎng)觸發(fā)詞和多觸發(fā)詞的事件句進(jìn)行了詳細(xì)的分析和理解，同時(shí)利用依存句法分析工具來(lái)更好地捕捉觸發(fā)詞之間的關(guān)系，并最大限度地減少它們的遺漏。

表1 ACE2005數(shù)據(jù)集上算法的指標(biāo)對(duì)比結(jié)果

表2 EEPCD數(shù)據(jù)集上算法的指標(biāo)對(duì)比結(jié)果

2、事件論元抽取模型實(shí)驗(yàn)結(jié)果及分析：

（1）對(duì)比實(shí)驗(yàn)：

本文設(shè)置了對(duì)比實(shí)驗(yàn)，在EEPCD數(shù)據(jù)集與ACE2005數(shù)據(jù)集上與其他主流算法對(duì)比。通過(guò)表3可以看出，本文提出的模型，在EEPCD數(shù)據(jù)集上無(wú)論是準(zhǔn)確率、召回率還是F1值都有顯著提升；而在A(yíng)CE 2005數(shù)據(jù)集上雖然召回率沒(méi)有提升，但在準(zhǔn)確率和F1值上都明顯優(yōu)于其他模型。

表3對(duì)比實(shí)驗(yàn)結(jié)果

（2）消融實(shí)驗(yàn)：

通過(guò)五組消融實(shí)驗(yàn)，可以看到在面向疫情防控領(lǐng)域新聞數(shù)據(jù)集上，各個(gè)模塊對(duì)BERT-CRF模型都有提升效果，在使用MacBERT替換成BERT的同時(shí)加入CLN層，并使用論元分組抽取的策略，使本章模型得到了最大程度地提升。綜上所述，本章模型能有效地抽取事件論元。

表4 消融實(shí)驗(yàn)結(jié)果

結(jié)論:

針對(duì)重大疫情防控事件缺乏數(shù)據(jù)集的問(wèn)題，本文初步構(gòu)建了一個(gè)專(zhuān)注于該領(lǐng)域的數(shù)據(jù)集。然后，針對(duì)事件句子中由于多觸發(fā)詞和長(zhǎng)觸發(fā)詞的存在而導(dǎo)致的錯(cuò)抽、漏抽問(wèn)題，本文采用了一種基于依存句法分析的事件觸發(fā)詞抽取算法。最后，針對(duì)事件觸發(fā)詞和事件論元抽取任務(wù)分離以及事件論元分布不平衡導(dǎo)致的抽取精度低的問(wèn)題，開(kāi)發(fā)了一種嵌入觸發(fā)詞特征的事件論元抽取模型。實(shí)驗(yàn)結(jié)果表明，所提出的方法應(yīng)用于EEPCD數(shù)據(jù)集和ACE2005中文數(shù)據(jù)集，均優(yōu)于傳統(tǒng)技術(shù)。事件觸發(fā)詞抽取的準(zhǔn)確性、召回率和F1分?jǐn)?shù)最高提高了6.0%，而事件論元抽取的這些指標(biāo)最高提高了3.0%。這項(xiàng)工作可以輔助下游的知識(shí)圖譜構(gòu)建任務(wù)，能更好地幫助公眾了解疫情發(fā)展趨勢(shì)，進(jìn)行有效的預(yù)防。然而，就傳統(tǒng)觸發(fā)詞抽取的準(zhǔn)確性以及觸發(fā)詞抽取結(jié)果對(duì)后續(xù)結(jié)果的影響方面，本文提出的方法尚待優(yōu)化。今后的工作將側(cè)重于提高這些領(lǐng)域的效果。

作者簡(jiǎn)介:

王智廣，教授，博士生導(dǎo)師，北京市教學(xué)名師。中國(guó)計(jì)算機(jī)學(xué)會(huì)（CCF）高級(jí)會(huì)員，全國(guó)高校實(shí)驗(yàn)室工作研究會(huì)信息技術(shù)專(zhuān)家指導(dǎo)委員會(huì)委員，全國(guó)高校計(jì)算機(jī)專(zhuān)業(yè)（本科）實(shí)驗(yàn)教材與實(shí)驗(yàn)室環(huán)境開(kāi)發(fā)專(zhuān)家委員會(huì)委員，北京市計(jì)算機(jī)教育研究會(huì)常務(wù)理事。長(zhǎng)期從事分布式并行計(jì)算、三維可視化、計(jì)算機(jī)視覺(jué)、知識(shí)圖譜方面的研究工作，主持或承擔(dān)國(guó)家重大科技專(zhuān)項(xiàng)子任務(wù)、國(guó)家重點(diǎn)研發(fā)計(jì)劃子課題、國(guó)家自然科學(xué)基金、北京市教委科研課題、北京市重點(diǎn)實(shí)驗(yàn)室課題、地方政府委托課題以及企業(yè)委托課題20余項(xiàng)，在國(guó)內(nèi)外重要學(xué)術(shù)會(huì)議和期刊上合作發(fā)表學(xué)術(shù)論文70余篇，培養(yǎng)了100余名碩士博士研究生。

金沙娱乐场官方网-澳门金沙会官网-金沙集团股价实情信息最新

科研動(dòng)態(tài)

面向疫情防控領(lǐng)域中文事件抽取