金沙娱乐场官方网-澳门金沙会官网-金沙集团股价实情信息最新

科研動(dòng)態(tài)

面向全球含油氣盆地知識(shí)圖譜和文檔的混合問(wèn)答方法

中文題目:面向全球含油氣盆地知識(shí)圖譜和文檔的混合問(wèn)答方法

論文題目Hybrid Q&A Method for Knowledge Graph and Documents of Global Petroliferous Basins

錄用期刊/會(huì)議油氣田勘探與開(kāi)發(fā)國(guó)際會(huì)議(IFEDC)(EI)

原文DOIdoi.org/10.1007/978-981-97-0272-5_21

作者列表

1)季廷雨 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 計(jì)算機(jī)技術(shù) 碩20

2) 李大偉 中國(guó)石油勘探開(kāi)發(fā)研究院 高級(jí)工程師

3) 袁明才 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù) 碩21

4) 牛   敏 中國(guó)石油勘探開(kāi)發(fā)研究院 二級(jí)工程師

5) 米石云 中國(guó)石油勘探開(kāi)發(fā)研究院 企業(yè)級(jí)專(zhuān)家

6) 安笑予 中國(guó)石油勘探開(kāi)發(fā)研究院 助理工程師

7) 王   芬 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 計(jì)算機(jī)技術(shù) 碩21

8) 魯   強(qiáng) 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 智能科學(xué)與技術(shù)系 教師

摘要:

勘探開(kāi)發(fā)形成的海量含油氣盆地?cái)?shù)據(jù)和文檔非常寶貴,需要利用新技術(shù)對(duì)其進(jìn)行深層次挖掘利用,為勘探開(kāi)發(fā)提供數(shù)據(jù)支撐和決策依據(jù)。知識(shí)圖譜能夠?qū)@些數(shù)據(jù)和文檔中蘊(yùn)含的知識(shí)進(jìn)行很好整合,然而它的概念及關(guān)系依賴(lài)人工建設(shè),導(dǎo)致其覆蓋的知識(shí)領(lǐng)域范圍有限。傳統(tǒng)的問(wèn)答方法能根據(jù)問(wèn)題在文檔中獲取相關(guān)答案,其具有知識(shí)覆蓋面廣的特點(diǎn),但是它難以理解專(zhuān)業(yè)領(lǐng)域內(nèi)容,導(dǎo)致其在含油氣盆地領(lǐng)域的準(zhǔn)確率偏低。針對(duì)以上問(wèn)題,本文構(gòu)建了一套面向含油氣盆地知識(shí)圖譜和文檔的混合問(wèn)答方法,將含油氣盆地知識(shí)圖譜作為專(zhuān)業(yè)背景知識(shí)庫(kù),并從文檔資料中獲取與專(zhuān)業(yè)相關(guān)的知識(shí)內(nèi)容。其中,針對(duì)含油氣盆地知識(shí)圖譜,分析問(wèn)句并與知識(shí)圖譜進(jìn)行實(shí)體對(duì)齊,將問(wèn)句轉(zhuǎn)換為結(jié)構(gòu)化的圖數(shù)據(jù)庫(kù)查詢(xún)語(yǔ)句并獲取答案;針對(duì)含油氣盆地文檔資料,構(gòu)建語(yǔ)義索引庫(kù),并根據(jù)問(wèn)句檢索得到候選文檔,利用知識(shí)圖譜嵌入方法將圖譜信息與文檔信息進(jìn)行融合,構(gòu)建深度語(yǔ)義匹配算法從候選文檔中推理得到答案;針對(duì)兩種問(wèn)答方法得到的候選答案,設(shè)計(jì)重排序算法衡量答案與問(wèn)題的語(yǔ)義匹配程度,對(duì)候選答案列表進(jìn)行排序與展示。與傳統(tǒng)問(wèn)答方法相比,本方法支持面向含油氣盆地知識(shí)圖譜及相關(guān)文檔的專(zhuān)業(yè)問(wèn)答場(chǎng)景,提高了用戶(hù)知識(shí)查詢(xún)效率,在保證檢索準(zhǔn)確率的同時(shí)增加了查全率,最終提升了答案準(zhǔn)確率。該方法具有操作方便、交互性強(qiáng)、答案精準(zhǔn)等特點(diǎn),為含油氣盆地研究提供了知識(shí)的深度共享和應(yīng)用平臺(tái)。

設(shè)計(jì)與實(shí)現(xiàn):

面向含油氣盆地知識(shí)圖譜和文檔的混合問(wèn)答方法總體框架如圖1所示。具體流程為:(1)為大量文檔內(nèi)容構(gòu)建全文索引和語(yǔ)義索引,根據(jù)問(wèn)題檢索得到候選段落,候選段落數(shù)量一般由人工設(shè)定為5-10個(gè),通過(guò)圖嵌入的方式將知識(shí)圖譜信息與文檔信息進(jìn)行融合,然后采用深度語(yǔ)義匹配模型從候選段落中獲取答案;(2)以含油氣盆地知識(shí)圖譜作為查詢(xún)基礎(chǔ),分析自然語(yǔ)言問(wèn)題并轉(zhuǎn)化為圖譜中存在的查詢(xún)結(jié)構(gòu),在圖譜中進(jìn)行知識(shí)匹配從而獲取答案;(3)采用答案重排序算法衡量問(wèn)題與以上所有候選答案的語(yǔ)義匹配程度,集成為一個(gè)完整準(zhǔn)確的答案列表。



圖1 方法框架



2 圖嵌入示例



3 知識(shí)圖譜與文檔信息融合


圖嵌入如圖2所示,將知識(shí)圖譜中的實(shí)體和關(guān)系映射到高維向量空間。而知識(shí)圖譜與文檔信息的融合如圖3所示。通過(guò)將知識(shí)圖譜中實(shí)體“渤海灣盆地”“18×106~22×106t/km2”“3.7℃/100m”等表示與段落表示中的對(duì)應(yīng)詞的表示進(jìn)行融合,增強(qiáng)了段落語(yǔ)義信息。其中,首先分析問(wèn)句得到含油氣盆地知識(shí)圖譜中的對(duì)應(yīng)子圖;然后通過(guò)預(yù)先訓(xùn)練好的TransE嵌入模型得到問(wèn)題對(duì)應(yīng)知識(shí)圖譜中實(shí)體的向量表示;最后使用自注意力機(jī)制融合編碼文本段落信息和實(shí)體信息,從而得到更新后的段落表示。

深度語(yǔ)義匹配模型的結(jié)構(gòu)如圖4所示。首先,將問(wèn)句和候選段落利用BERT預(yù)訓(xùn)練語(yǔ)言模型進(jìn)行聯(lián)合嵌入,獲得的編碼向量中融合了上下文的語(yǔ)境信息;然后,將編碼序列首位[CLS]標(biāo)記對(duì)應(yīng)的向量作為聚合序列表示,訓(xùn)練分類(lèi)器判斷在該段落中問(wèn)題是否存在答案;對(duì)于段落中不存在答案的情況,直接將答案設(shè)為空值;對(duì)于段落中存在答案的情況,利用序列標(biāo)注模型進(jìn)行詞級(jí)別預(yù)測(cè),確定答案在段落中的起止位置,抽取出對(duì)應(yīng)的文本子序列作為答案。



圖4 深度語(yǔ)義匹配模型


另外,本文提出的混合問(wèn)答方法中集成了知識(shí)圖譜嵌入的文檔問(wèn)答方法和基于知識(shí)圖譜的推理問(wèn)答方法。如圖5所示,通過(guò)設(shè)計(jì)重排序算法,將兩種問(wèn)答方法的結(jié)果進(jìn)行融合,最后按照匹配度獲取已排序的答案列表。



5 答案重排序

實(shí)驗(yàn)結(jié)果及分析:

1 檢索數(shù)據(jù)集



2 問(wèn)答數(shù)據(jù)集



3 檢索效果對(duì)比



4 重排序?qū)嶒?yàn)結(jié)果



5 SQuAD2.0數(shù)據(jù)集實(shí)驗(yàn)結(jié)果



6 含油氣盆地?cái)?shù)據(jù)集實(shí)驗(yàn)結(jié)果



7 混合問(wèn)答方法在含油氣盆地?cái)?shù)據(jù)集實(shí)驗(yàn)結(jié)果



本文方法在全球含油氣盆地領(lǐng)域的問(wèn)答準(zhǔn)確率達(dá)到84.38%,召回率達(dá)到85.95%,與單一的知識(shí)圖譜問(wèn)答和文檔問(wèn)答效果相比均有較大程度的提升,由此驗(yàn)證了混合問(wèn)答方法的有效性。

結(jié)論:

本研究面向全球含油氣盆地知識(shí)圖譜與文檔庫(kù)設(shè)計(jì)并實(shí)現(xiàn)了一種混合問(wèn)答方法,主要包括知識(shí)圖譜嵌入的文檔問(wèn)答方法、圖譜和文檔答案的綜合排序方法兩部分。通過(guò)對(duì)問(wèn)句進(jìn)行語(yǔ)義分析,從知識(shí)圖譜中匹配得到對(duì)應(yīng)子圖并推理得到候選的節(jié)點(diǎn)答案,然后將圖譜信息與語(yǔ)義檢索得到的候選段落信息融合并推理得到候選的文本答案,最后利用重排序算法將所有候選答案進(jìn)行排序,生成答案列表。

本研究分別針對(duì)檢索、問(wèn)答和重排序三個(gè)方面展開(kāi)了實(shí)驗(yàn)。通過(guò)實(shí)驗(yàn)分析可得:本文提出的混合問(wèn)答方法能夠改進(jìn)候選文檔的檢索方式,提高整體查全率;能夠擴(kuò)大含油氣盆地知識(shí)領(lǐng)域范圍,同時(shí)支持面向含油氣盆地知識(shí)圖譜和文檔庫(kù)的兩種專(zhuān)業(yè)問(wèn)答場(chǎng)景;與傳統(tǒng)問(wèn)答方法相比,提升了全球含油氣盆地領(lǐng)域的問(wèn)答準(zhǔn)確率。因此,本文研發(fā)的方法不僅提升了全球含油氣盆地領(lǐng)域的問(wèn)答效果,提高了盆地研究成果的共享水平和效率,還為研究人員提供了更好的勘探開(kāi)發(fā)知識(shí)服務(wù)能力。此外,由于實(shí)驗(yàn)中發(fā)現(xiàn)本方法在領(lǐng)域數(shù)據(jù)集上的準(zhǔn)確率低于公開(kāi)數(shù)據(jù)集,因此加強(qiáng)模型對(duì)專(zhuān)業(yè)領(lǐng)域的適應(yīng)性研究是下一步的工作重點(diǎn)。

通訊作者簡(jiǎn)介:

魯強(qiáng),副教授,博士生導(dǎo)師。目前主要從事演化計(jì)算和符號(hào)回歸、知識(shí)圖譜與智能問(wèn)答、以及軌跡分析與挖掘等方面的研究工作。聯(lián)系方式:[email protected]