中文題目:極有限故障樣本下利用改進(jìn)的條件GAN進(jìn)行數(shù)據(jù)增強(qiáng)及其在電潛泵故障診斷中的應(yīng)用
論文題目:Data augmentation using improved conditional GAN under extremely limited fault samples and its application in fault diagnosis of electric submersible pump
錄用期刊/會(huì)議:Journal of the Franklin Institute (JCR Q1; CAA A類(lèi)期刊)
原文DOI: https://doi.org/10.1016/j.jfranklin.2024.01.030
原文鏈接:https://www.sciencedirect.com/science/article/pii/S0016003224000401
錄用/見(jiàn)刊時(shí)間:2024年01月17日
作者列表:
1) 高小永 中國(guó)石油大學(xué)(北京)信息科學(xué)與工程學(xué)院/人工智能學(xué)院 自動(dòng)化系 教師
2) 張 譽(yù) 中國(guó)石油大學(xué)(北京)信息科學(xué)與工程學(xué)院/人工智能學(xué)院 控制科學(xué)與工程 碩20;School of Chemistry and Chemical Engineering, University of Surrey, Guildford GU2 7XH, UK
3) 付 軍 中海油能源發(fā)展股份有限公司 天津
4) 李 爽 中國(guó)石油大學(xué)(北京)信息科學(xué)與工程學(xué)院/人工智能學(xué)院 控制科學(xué)與工程 碩22
文章簡(jiǎn)介:
本研究提出一種智能虛擬樣本生成法,用于海上油田電潛泵故障診斷。通過(guò)條件生成對(duì)抗網(wǎng)絡(luò)和多分布趨勢(shì)擴(kuò)散技術(shù),有效克服數(shù)據(jù)量大但信息量小的挑戰(zhàn),生成高質(zhì)量虛擬樣本。這種方法顯著提高了分類(lèi)模型的準(zhǔn)確性,并通過(guò)實(shí)際應(yīng)用驗(yàn)證了其效果,展現(xiàn)出優(yōu)于傳統(tǒng)方法的性能。
摘要:
海上油田的電潛泵(ESP)是實(shí)現(xiàn)高產(chǎn)穩(wěn)產(chǎn)的重要人工舉升方法之一。由于 ESP 系統(tǒng)的復(fù)雜性和較長(zhǎng)的泵送周期,其數(shù)據(jù)具有典型的 "數(shù)據(jù)量大、信息量小 "的特點(diǎn)。因此,有效樣本的稀缺給 ESP 故障診斷帶來(lái)了巨大挑戰(zhàn)。針對(duì)這些實(shí)際問(wèn)題,我們提出了一種智能虛擬樣本生成方法,將多分布整體趨勢(shì)擴(kuò)散(MD-MTD)的思想引入條件生成對(duì)抗網(wǎng)絡(luò)(MCGAN-VSG)。在 MCGAN-VSG 方法中,首先利用 MD-MTD 中構(gòu)建的三角概率分布模型對(duì)樣本進(jìn)行估計(jì),從而獲得樣本屬性的可接受擴(kuò)散范圍。其次,加入Borderline-SMOTE 和均勻分布來(lái)描述小樣本屬性,并生成合適的輸出樣本來(lái)填補(bǔ)樣本間的信息差距,以便使用 Bootstrap 重新采樣。第三,使用 CGAN 生成與輸出樣本相對(duì)應(yīng)的輸入樣本。最后,用極其有限的故障樣本生成大量虛擬樣本,從而提高分類(lèi)模型的準(zhǔn)確性。為了驗(yàn)證所提出的 MCGAN-VSG 的優(yōu)勢(shì),我們通過(guò)二維標(biāo)準(zhǔn)函數(shù)對(duì)通過(guò)該方法生成的輸入和輸出虛擬樣本的質(zhì)量進(jìn)行了研究。提出的方法被進(jìn)一步應(yīng)用于海洋油田靜電除塵器的故障診斷,并通過(guò)實(shí)際工業(yè)數(shù)據(jù)驗(yàn)證了 MCGAN-VSG 的有效性。MCGAN-VSG 與 MTD、TTD、Bootstrap 和 MD-MTD 等最先進(jìn)的方法進(jìn)行了比較,實(shí)驗(yàn)結(jié)果表明所提出的方法優(yōu)于所有其他方法。
背景與動(dòng)機(jī):
海上油田的電潛泵(ESP)是關(guān)鍵的人工舉升技術(shù)之一,但由于其系統(tǒng)復(fù)雜性及長(zhǎng)周期泵送特點(diǎn),面臨數(shù)據(jù)量大但信息量小的挑戰(zhàn),使得有效樣本稀缺,進(jìn)而給ESP故障診斷帶來(lái)困難。因應(yīng)這一問(wèn)題,研究提出了一種智能虛擬樣本生成方法,旨在通過(guò)創(chuàng)新技術(shù)提高故障診斷的準(zhǔn)確性和效率。
設(shè)計(jì)與實(shí)現(xiàn):
首先,將 MCGAN-VSG 方法與 MD-MTD 方法的思想相結(jié)合,計(jì)算原始樣本的擴(kuò)散范圍。然后,利用三角隸屬函數(shù)建立三角概率分布(TPD)模型。為了描述小樣本的特征,還加入了邊界線(xiàn)-SMOTE 和均勻分布。然后生成虛擬樣本。此外,使用 Bootstrap 對(duì) TPD 模型中的數(shù)據(jù)進(jìn)行重新采樣,以獲得新樣本的輸出。最后,使用改進(jìn)的 CGAN 生成新樣本的輸入。
MTD 方法是一種信息擴(kuò)散技術(shù)。MTD 的作用是填補(bǔ)原始樣本信息之間的空白。它利用隸屬函數(shù)計(jì)算虛擬樣本區(qū)間的左右邊界,并在這些邊界內(nèi)生成虛擬樣本。另一方面,MD-MTD 是一種基于 MTD 的改進(jìn)算法。它引入了均勻分布來(lái)生成虛擬樣本,避免了樣本在擴(kuò)散區(qū)域的不平衡現(xiàn)象。

圖1 三角概率分布模型
在 TPD 模型的擴(kuò)散區(qū)域,數(shù)據(jù)分布未知,因此使用均勻分布生成虛擬樣本點(diǎn),如圖 1中藍(lán)色星形點(diǎn)所示。在觀(guān)測(cè)區(qū)域,由于原始樣本分布未知,因此使用邊界線(xiàn)-SMOTE 算法生成虛擬樣本,并在此間隙中不重疊。因此,在直接觀(guān)測(cè)區(qū)域生成的虛擬樣本可以填補(bǔ)離散樣本觀(guān)測(cè)點(diǎn)的信息空白,從而解決原始樣本不平衡的問(wèn)題。擴(kuò)散區(qū)域的樣本點(diǎn)也會(huì)被添加額外的信息,邊界線(xiàn)-SMOTE 的原理如下圖 2 所示。

圖2 Borderline-SMOTE
本文充分利用了 MD-MTD 的優(yōu)勢(shì),既大大降低了計(jì)算成本,又能更好地呈現(xiàn)原始樣本的概率。在 MD-MTD 所構(gòu)建的 TPD 模型的抽樣過(guò)程中應(yīng)用 Bootstrap 方法,可以大大提高虛擬樣本生成的效率。
Bootstrap 方法的具體抽樣過(guò)程如下:
Step 1:使用重抽樣技術(shù)在總體中隨機(jī)抽取一個(gè)樣本,記錄樣本值,然后放回原始數(shù)據(jù)樣本中。
Step 2:重復(fù)Step 1,進(jìn)行 n 次抽樣,從中獲得自助樣本并計(jì)算統(tǒng)計(jì)參數(shù)。
Step 3:重復(fù)Step 1 和Step 2 進(jìn)行子采樣,得到 m 個(gè)自助樣本。
Step 4:利用 m 個(gè)自助樣本的統(tǒng)計(jì)參數(shù)計(jì)算總體統(tǒng)計(jì)參數(shù)。
在工業(yè)領(lǐng)域,海量數(shù)據(jù)集具有非線(xiàn)性、高維度和未知分布等特點(diǎn)。生成式對(duì)抗網(wǎng)絡(luò)通過(guò)不斷訓(xùn)練生成新樣本,從而獲得數(shù)據(jù)集的分布。然而,生成式對(duì)抗網(wǎng)絡(luò)生成的樣本具有隨機(jī)性,因此控制模型虛擬樣本的生成對(duì)于故障診斷極為重要。因此,我們將條件生成式對(duì)抗網(wǎng)絡(luò)(CGAN)作為基礎(chǔ)模型。
具體來(lái)說(shuō),與 GAN 類(lèi)似,CGAN 也由兩個(gè)相互競(jìng)爭(zhēng)的神經(jīng)網(wǎng)絡(luò)組成,分別為生成器(G)和判別器(D)。在本研究中,通過(guò)在 G 中添加約束 Y 和噪聲 Z,生成一個(gè)滿(mǎn)足訓(xùn)練條件的新虛擬樣本 X。此外,D 將條件 Y 和新生成的 X 作為輸入,然后 D 區(qū)分樣本 X 屬于真實(shí)樣本還是虛假樣本,而 X 是否生成取決于條件 Y。目標(biāo)函數(shù)如下式所示:

MCGAN-VSG 方法的具體實(shí)施過(guò)程如下:
a. 通過(guò) MD-MTD 建立 TPD 模型,以獲得原始數(shù)據(jù)集的擴(kuò)散范圍。
b. 對(duì)于擴(kuò)散區(qū)域和觀(guān)測(cè)區(qū)域,分別添加均勻分布和邊界線(xiàn)-SMOTE 對(duì)其進(jìn)行描述。然后,通過(guò) Bootstrap 方法對(duì)全局范圍進(jìn)行重采樣,得到新樣本的輸出。
c. 以噪聲 z 和條件 y 作為輸入對(duì) CGAN 模型進(jìn)行訓(xùn)練,以獲得輸出 x 和給定條件 y 下的分布。
d. 獲得訓(xùn)練有素的 CGAN 模型后,將樣本輸入該模型,最終生成虛擬樣本.
實(shí)驗(yàn)結(jié)果及分析:
為了驗(yàn)證我們提出的算法的有效性,我們將通過(guò)二維標(biāo)準(zhǔn)函數(shù)來(lái)驗(yàn)證 MCGAN-VSG 方法的優(yōu)越性。此外,MCGAN-VSG 還將在實(shí)際工業(yè)流程(ESP 系統(tǒng))中得到很好的應(yīng)用。
Case 1:
二維標(biāo)準(zhǔn)函數(shù)的定義為:

虛擬樣本生成的具體步驟如下:
1) 數(shù)據(jù)集的獲取。首先,我們從二維標(biāo)準(zhǔn)函數(shù)中隨機(jī)選取 500 個(gè)數(shù)據(jù)點(diǎn)作為實(shí)驗(yàn)的原始數(shù)據(jù)集。然后,從原始數(shù)據(jù)中提取 400 個(gè)原始樣本點(diǎn)作為訓(xùn)練數(shù)據(jù)集。
2) 輸出新樣本。利用 TPD 模型對(duì)原始數(shù)據(jù)進(jìn)行擴(kuò)散,以獲得更大的數(shù)據(jù)擴(kuò)展區(qū)間。然后,在觀(guān)測(cè)區(qū)域和擴(kuò)散區(qū)域分別添加邊界線(xiàn)-SMOTE 和均勻分布描述。最后,通過(guò) Bootstrap 對(duì)全局?jǐn)?shù)據(jù)區(qū)間進(jìn)行重采樣,得到輸出結(jié)果。
3) CGAN 模型構(gòu)建。輸入訓(xùn)練數(shù)據(jù)來(lái)訓(xùn)練 CGAN 模型,超參數(shù)的選擇見(jiàn)表 1。圖 5 比較了真實(shí)數(shù)據(jù)(藍(lán)色表面)和生成數(shù)據(jù)(黃色表面)的核概率估計(jì)值,真實(shí)密度和生成密度非常接近。根據(jù)公式 (10) 和 (11),可以得到真實(shí)分布和生成分布之間的距離,如圖 6 所示。從圖中可以看出,隨著迭代次數(shù)的增加,KL 和 JS 逐漸減小。當(dāng)?shù)螖?shù)達(dá)到約 650 次時(shí),模型已經(jīng)收斂。因此,可以評(píng)價(jià) CGAN 模型能夠生成較好的虛擬數(shù)據(jù)。
4) 將步驟 2) 中的輸出導(dǎo)入訓(xùn)練有素的 CGAN 模型,以獲得虛擬樣本。模型生成的虛擬樣本和原始樣本如下所示。從圖中可以看出,原始樣本中的一些信息空白被我們的虛擬樣本所填補(bǔ),很好地保持了信息的完整性。



Case 2:
以某海上油氣田電潛泵運(yùn)行工況的真實(shí)數(shù)據(jù)為實(shí)驗(yàn)樣本集。電潛泵是一種將電動(dòng)機(jī)連同泵對(duì)油一起投入油井的井下舉升設(shè)備。作為油田實(shí)現(xiàn)高產(chǎn)穩(wěn)產(chǎn)的重要人工舉升方式之一,靜電除塵器的優(yōu)點(diǎn)是設(shè)備配置簡(jiǎn)單,安裝面積小,適合海上平臺(tái)使用。由于海上電泵井的檢泵周期較長(zhǎng),長(zhǎng)時(shí)間運(yùn)行可能導(dǎo)致氣鎖、砂堵、供液不足等因素的影響,以及管柱漏油、斷軸、電纜擊穿等故障。有必要對(duì)靜電除塵器的工作條件進(jìn)行診斷。一般來(lái)說(shuō),正常樣本和故障樣本的數(shù)量極不對(duì)稱(chēng)會(huì)導(dǎo)致數(shù)據(jù)不平衡。以圖 8 所示的靜電除塵器軸斷裂故障數(shù)據(jù)集為例,可以看出有效故障樣本極度缺乏,數(shù)據(jù)之間存在許多間隙。少量的故障樣本給故障分類(lèi)帶來(lái)了很大的困難,對(duì)預(yù)測(cè)精度也有極大的影響。因此,本文提出了一種虛擬樣本生成技術(shù) MCGAN-VSG,用于解決 ESP 系統(tǒng)中故障樣本極其有限的數(shù)據(jù)問(wèn)題。

Accuracy、F-measure 和 G-mean 被用作分類(lèi)模型的衡量標(biāo)準(zhǔn)。上表總結(jié)了使用原始樣本和不同虛擬樣本生成方法的分類(lèi)模型的結(jié)果。從表可以看出,在基礎(chǔ) ELM 模型中加入 MCGAN-VSG 方法生成的虛擬樣本后,分類(lèi)準(zhǔn)確率可達(dá) 73.98%,F-measure 為 60.96%,G-mean 為 61.32%。在沒(méi)有添加虛擬樣本的情況下,原始訓(xùn)練集測(cè)試的準(zhǔn)確率為 50.91%,與提出的 MCGAN-VSG 方法相比,準(zhǔn)確率提高了 23.07%,F-measure 和 G-mean 也有所提高。與其他五種先進(jìn)的 VSG 方法相比,在極其有限的 ESP 數(shù)據(jù)集上,沒(méi)有一種方法的表現(xiàn)能與 MCGAN-VSG 相提并論。下圖給出了不包含虛擬樣本的分類(lèi)模型和不同 VSG 方法擴(kuò)展數(shù)據(jù)集的混淆矩陣。由此可見(jiàn),與其他 VSG 方法的擴(kuò)展數(shù)據(jù)集分類(lèi)模型相比,MCGAN-VSG 方法的擴(kuò)展數(shù)據(jù)集下訓(xùn)練的分類(lèi)模型表現(xiàn)更好,可以獲得更高的準(zhǔn)確率。


所提出的 MCGAN-VSG 可以很好地解決小樣本問(wèn)題,填補(bǔ)原始樣本之間的信息空白,并能有效提高極有限的 ESP 故障樣本的性能。
結(jié)論:
本研究提出了一種結(jié)合 MD-MTD 和條件生成對(duì)抗網(wǎng)絡(luò)(MCGAN-VSG)的智能虛擬樣本生成方法,以實(shí)現(xiàn)在 ESP 故障樣本極其有限的情況下的數(shù)據(jù)增強(qiáng)。在 MCGAN-VSG 中,首先通過(guò) MD-MTD 擴(kuò)散原始樣本范圍,以獲得更寬的數(shù)值范圍。然后,分別使用邊界線(xiàn)-SMOTE 和均勻分布來(lái)描述觀(guān)測(cè)區(qū)域和擴(kuò)散區(qū)域,以填補(bǔ)原始信息的空白,再通過(guò) Bootstrap 對(duì)輸出樣本進(jìn)行重新采樣。CGAN 之后是虛擬樣本的生成。最后,利用生成的虛擬樣本進(jìn)行故障分類(lèi),從而在樣本極其有限的情況下提高分類(lèi)的準(zhǔn)確性。通過(guò)使用二維標(biāo)準(zhǔn)函數(shù),驗(yàn)證了所提方法的優(yōu)勢(shì)。在真實(shí)數(shù)據(jù)集的實(shí)驗(yàn)中,通過(guò)準(zhǔn)確率、F-measure 和 G-mean 指標(biāo)驗(yàn)證了所提出的 MCGAN-VSG 的有效性。與不包含虛擬樣本的原始訓(xùn)練集相比,MCGAN-VSG 提高了 23.07%,并與 TTD、MTD、Bootstrap 和 MD-MTD 方法進(jìn)行了比較,驗(yàn)證了 MCGAN-VSG 的優(yōu)越性。此外,我們還研究了增加虛擬樣本量大小對(duì)模型準(zhǔn)確性的影響,結(jié)果表明,在原始樣本的基礎(chǔ)上增加 500 個(gè)虛擬樣本時(shí),模型性能趨于穩(wěn)定。
在未來(lái)的研究中,我們將探索在準(zhǔn)確率保持穩(wěn)定的條件下虛擬樣本生成的擴(kuò)散范圍極限,并將其應(yīng)用于實(shí)際工業(yè)過(guò)程。
通訊作者簡(jiǎn)介:
高小永,信息科學(xué)與工程學(xué)院/人工智能學(xué)院副院長(zhǎng),博士生導(dǎo)師,石大學(xué)者,校青年拔尖人才,自動(dòng)化專(zhuān)業(yè)及控制科學(xué)與工程學(xué)科建設(shè)負(fù)責(zé)人,擔(dān)任北京自動(dòng)化學(xué)會(huì)常務(wù)理事、中國(guó)自動(dòng)化學(xué)會(huì)過(guò)程控制專(zhuān)業(yè)委員會(huì)委員、中國(guó)自動(dòng)化學(xué)會(huì)教育工作委員會(huì)委員、中國(guó)化工學(xué)會(huì)信息技術(shù)應(yīng)用專(zhuān)業(yè)委員會(huì)副秘書(shū)長(zhǎng)、中國(guó)系統(tǒng)工程學(xué)會(huì)過(guò)程系統(tǒng)工程專(zhuān)業(yè)委員會(huì)委員等。研究領(lǐng)域?yàn)閺?fù)雜石油石化工業(yè)過(guò)程智能制造,主要方向有:機(jī)理與數(shù)據(jù)驅(qū)動(dòng)的故障診斷、復(fù)雜工業(yè)過(guò)程建模與優(yōu)化控制、工業(yè)過(guò)程計(jì)劃與調(diào)度優(yōu)化等。主持國(guó)家自然科學(xué)基金項(xiàng)目2項(xiàng)、北京市自然科學(xué)基金面上項(xiàng)目1項(xiàng)、校企聯(lián)合項(xiàng)目20多項(xiàng),發(fā)表SCI/EI等各類(lèi)論文50多篇。
Email:[email protected]