局部時差約束鄰域保持嵌入算法在故障檢測中的應用
在現(xiàn)代工業(yè)過程中,系統(tǒng)規(guī)模越來越大,流程也越來越復雜[1-2],一旦故障發(fā)生,不僅會影響生產(chǎn)效率,甚至會造成重大的安全事故。同時,隨著傳感器技術、實時存儲技術和信息管理系統(tǒng)的發(fā)展[3],大量在線和離線數(shù)據(jù)更易被獲取和存儲[4-5]。因此,為了保證工業(yè)過程的生產(chǎn)安全,數(shù)據(jù)驅(qū)動的過程監(jiān)測和控制技術越來越受關注[6],多元統(tǒng)計過程監(jiān)控(multivariate statistical process monitoring,MSPM)方法作為數(shù)據(jù)驅(qū)動過程監(jiān)控方法的典型代表,得到了廣泛的研究[7]。目前常用的MSPM方法有主成分分析(principal component analysis,PCA)、偏最小二乘(partial least squares,PLS)、獨立主元分析(independent component analysis,ICA)等,這些方法對過程數(shù)據(jù)進行降維[8-11]并基于提取的特征信息建立模型。然而,這些方法僅考慮樣本間的全局特性,并沒有關注局部包含的結構關系,這將忽略隱藏在高維空間中的更多信息。
近年來,基于流形學習的方法得到快速發(fā)展[12],拉普拉斯特征映射(Laplacian eigenmaps,LE)[13]、局部線性嵌入(locally linear embedding,LLE)[14]和等距映射(isometric feature mapping,ISOMAP)[15]等非線性流形學習算法被提出,這些方法可以從高維采樣數(shù)據(jù)中揭示低維流形結構以實現(xiàn)維數(shù)的約簡,但運算成本高且得到的投影僅在訓練數(shù)據(jù)上定義。He等[16]提出局部保持投影(locality preserving projections, LPP),它作為一種線性流形學習算法,對LE算法進行線性近似,不僅保留了諸如LE、LLE非線性算法的數(shù)據(jù)屬性,還可以被定義在環(huán)繞空間的任何地方,而不僅限于訓練數(shù)據(jù)中。He等[17]進一步提出鄰域保持嵌入(neighborhood preserving embedding, NPE),也是通過鄰域近似線性表示得到投影矩陣,但目標函數(shù)表示為最小化重構誤差,目前也成功應用于故障檢測領域[18-21]。但無論是關注全局結構信息的典型多元統(tǒng)計方法還是關注局部結構信息的流形學習方法,它們都基于數(shù)據(jù)樣本獨立分布的假設建立靜態(tài)模型,忽略了樣本在連續(xù)時間采集過程中的相關性[22]。
在實際工業(yè)中,變量可能受到噪聲等干擾使其在穩(wěn)態(tài)值附近波動,該過程便具有動態(tài)行為特征。Ku等[23]提出動態(tài)主成分分析算法(dynamic PCA, DPCA),通過加入時間延遲因子的方法來表示模型中的動態(tài)行為,利用時間窗將連續(xù)時間的樣本依次排列,形成增廣矩陣作為模型訓練的輸入。Li等[24]提出動態(tài)鄰域保持嵌入(dynamic neighborhood preserving embedding,DNPE)算法將原始數(shù)據(jù)矩陣轉(zhuǎn)換為增廣數(shù)據(jù),既保留了NPE算法的優(yōu)勢又克服了無法考慮時序相關性的問題,然后利用LSSVM方法實現(xiàn)對數(shù)據(jù)的多類評價。趙小強等[25]提出GSFA-GNPE算法,通過計算順序相關矩陣,對過程變量的特性進行評估,劃分為動態(tài)子空間和過程子空間,根據(jù)得到的混合模型指標實現(xiàn)過程監(jiān)控。但是,這些算法廣泛關注的是樣本的全局時間特性,并沒有充分挖掘局部時間特性。
針對全局結構信息無法準確反映樣本間關系和時序相關性未被考慮兩個問題,本文在傳統(tǒng)NPE算法基礎上提出一種新的數(shù)據(jù)降維和特征提取方法——LTDCNPE算法,它使用一種全新的方式選擇近鄰樣本來對原始樣本進行重構。不同于大部分算法單純使用歐氏距離的大小來選擇鄰域,很多距離小的樣本可能時間尺度上相隔較遠,導致鄰域中選擇了時間上關系很小但距離相隔很近的樣本,這在一定程度上會影響特征的提取。LTDCNPE算法同時兼顧時序相關性和局部空間結構信息,任意選取一個樣本作為中心點,根據(jù)樣本時間上的相關性大小選定一個長度固定的時間窗,再利用中心點與時間窗內(nèi)其他每個采樣點之間的時間關系和二者之間的距離,來構造更加合理的鄰域選擇標準,并將時間關系作為近鄰樣本的權值,來提高系統(tǒng)的故障檢測精度。本文將LTDCNPE算法用于工業(yè)過程的故障檢測,分別在特征空間中構造
1 NPE算法介紹
NPE算法通過求解特征映射
首先,利用k-NN方法為原始訓練數(shù)據(jù)
式中,
然后,通過特征映射矩陣
根據(jù)低維空間可以利用與在原始高維空間中相同的權值進行重構這一特點,利用
式中,
最后,利用拉格朗日乘子法進行轉(zhuǎn)換,將
獲得的前
2 基于LTDCNPE的故障檢測
NPE算法根據(jù)樣本之間的歐氏距離選擇鄰域來對中心樣本進行重構,但是在化工過程中,一段時間內(nèi)的連續(xù)樣本之間具有時序相關性[26]。傳統(tǒng)的NPE方法僅考慮樣本間的空間關系,忽略了樣本間的時序關系,使得檢測效果變差。因此,本文將提出的LTDCNPE算法用于化工過程故障檢測,希望在一個時間窗內(nèi)通過同時考慮時間和空間上的局部性來進行鄰域挑選,并利用時差為近鄰樣本賦權,進而提取更為合理的特征。
2.1 LTDCNPE算法
2.1.1 挑選鄰域
在選擇鄰域前,LTDCNPE算法先對選擇的范圍進行了預縮減,根據(jù)連續(xù)過程樣本間的時序相關性尋找一個長度為
但通過時間窗得到的縮減鄰域所包含的樣本并非全部適合重構
式中,
LTDCNPE算法和NPE算法對空間結構上的特征提取均是利用
圖1
圖1 僅考慮空間距離的樣本分布
Fig.1 Sample distribution considering only spatial distance
LTDCNPE算法中的局部時差由
式中,
具體地,在
對照以上分析,將圖1中的中心樣本及其鄰域投影到時間軸上,此時的示意圖如圖2(a)所示。當考慮了鄰域樣本的局部時序關系后,該算法將圖2(a)中距離中心樣本近而時間相隔較遠的樣本剔除,并選擇在時間和空間兩種約束下更為緊密的近鄰樣本,如圖2(b)所示,可以看出
圖2
圖2 時間投影上的樣本分布
Fig.2 The sample distribution on the time projection
2.1.2 鄰域加權
當在時間窗中根據(jù)
然后,用于訓練的樣本變量經(jīng)過
式中,
2.1.3 計算權值系數(shù)矩陣和映射矩陣
利用時間關系為近鄰樣本加權后,按
利用
2.2 使用LTDCNPE進行故障檢測
為了提高故障檢測模型在化工過程中的監(jiān)控效果,本文使用提出的LTDCNPE算法獲得投影矩陣
其中,
因為核密度估計(kernel density estimation, KDE)方法[28-29]使用方便且具有更普遍的意義,本文使用該方法估計統(tǒng)計量的控制限,假設
在已知
式中,
基于LTDCNPE算法進行離線建模和在線監(jiān)控的具體實施步驟如下。
離線建模階段:
(1) 以正常數(shù)據(jù)
(2) 利用
(3)
(4) 利用
(5) 根據(jù)最小化公式
(6) 根據(jù)
在線監(jiān)控階段:
(1) 獲取新樣本
(2) 利用離線建模步驟(5)獲得的特征映射矩陣
(3) 計算新樣本的
3 仿真實驗
為了說明LTDCNPE算法的有效性,本文使用數(shù)值例子和TE仿真實驗進行故障檢測,并將所提出算法的性能與經(jīng)典算法PCA、NPE及其時間相關的衍生算法DNPE[24,30-31]進行了比較。
3.1 數(shù)值例子仿真
本文采用Ku等[23]提出的多元動態(tài)過程來驗證所提方法的有效性:
式中,
式中,
表1 過程故障描述
Table 1
故障 | 描述 |
---|---|
1 | 對 |
2 | 系數(shù)矩陣 |
新窗口打開| 下載CSV
測試集中各算法的漏報率(miss alarm rate, MAR)總結在表2中,用粗體數(shù)值表示檢測結果的最優(yōu)值。由表2可以看出當故障1發(fā)生時,PCA算法和NPE算法的
表2 數(shù)值例子的漏報率
Table 2
Fault | MAR/% | |||||||
---|---|---|---|---|---|---|---|---|
PCA | NPE | DNPE | LTDCNPE | |||||
SPE | SPE | SPE | SPE | |||||
1 | 58.67 | 1.33 | 62.00 | 2.00 | 1.00 | 1.32 | 0.33 | 2.00 |
2 | 1.67 | 1.67 | 1.67 | 1.67 | 1.66 | 1.66 | 1.39 | 1.67 |
新窗口打開| 下載CSV
圖3是四種方法針對故障1數(shù)據(jù)的二維投影結果。可以看出,圖3(a)~(c)的故障樣本投影后有接近一半超過橢圓控制限,使正常樣本和故障樣本在二維投影平面上大量重疊,無法進行區(qū)分。而LTDCNPE算法可以通過橢圓形的控制限將測試數(shù)據(jù)中的正常數(shù)據(jù)和故障數(shù)據(jù)很好地分開,兩部分數(shù)據(jù)幾乎沒有重疊,表明數(shù)據(jù)中的時間序列在低維空間中得到了較好的保留和利用,從而提高了映射空間的質(zhì)量。圖4是四種方法針對故障1數(shù)據(jù)的控制圖。其中,圖4(a)、(b)的
圖3
圖3 數(shù)值例子故障1的
* 正常樣本;〇 故障樣本;— 控制限
Fig.3
圖4
圖4 數(shù)值例子故障1的控制圖
Fig.4 Control diagram of fault 1 in case study
3.2 TE過程仿真
TE過程是對實際工業(yè)過程的模擬,該平臺廣泛應用于控制技術和監(jiān)測方法的開發(fā)、研究和評價[1,10,32-33]。該工藝過程包括反應器、冷凝器、壓縮機、分離器和汽提塔5個主要生產(chǎn)單元[34],8種成分,22個連續(xù)過程變量,19個成分變量,12個控制變量,21種故障。由于實際過程中的攪拌速率和成分變量很難實時采集,因此選用剩余的33個變量作為監(jiān)控的連續(xù)過程變量。故障4為反應器冷卻水入口溫度的一個階躍變化,但在實際中相當于過程中的干擾而非故障;故障3、9、15的數(shù)據(jù)在均值方差和高階矩上均沒有可以被觀測到的變化[35],難以檢測且對監(jiān)測過程影響較小,因此本文選取剩余的17種故障進行在線檢測。在此基礎上,采集正常工作模式下的960個樣本作為訓練數(shù)據(jù),各種故障均在第161個樣本引入并收集960個樣本作為訓練樣本。
在設置實驗參數(shù)時將所有算法統(tǒng)計量的置信度設置為
為了更加全面地對比LTDCNPE算法和其他算法在實際中的有效性和可行性,本節(jié)不僅使用漏報率來對TE過程的17種故障數(shù)據(jù)進行故障部分的檢測,還利用誤報率(fault alarm rate,F(xiàn)AR)來檢驗不同算法對正常數(shù)據(jù)的效果。在表3中,誤報率均寫在括號內(nèi)。根據(jù)表中數(shù)據(jù)可以看出,LTDCNPE算法總體上提供了較低的漏報率。對于容易檢測的故障,四種算法的結果均能得到令人滿意的結果;對于初始階段難于檢測的故障10、16、19、20,三種對比方法的漏報率均很高,在實際應用中無法提供可靠的報警,而LTDCNPE算法的漏報率仍能保持較低數(shù)值。從誤報率角度來看,PCA的誤報率相對其他三種方法偏高一點,其他三種方法的誤報率相差不大,整體上數(shù)值都比較低,說明對正常數(shù)據(jù)有較好的檢測效果。
表3 TE過程17種故障的漏報率和誤報率
Table 3
Fault | MAR(FAR)/% | ||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
PCA | NPE | DNPE | LTDCNPE | ||||||||
SPE | SPE | SPE | SPE | ||||||||
1 | 0.88(0) | 0.13(0.63) | 0.88(0) | 0.75(0) | 0.13(0) | 0.50(0) | 0.25(1.25) | 0.75(0) | |||
2 | 1.63(1.25) | 4(1.25) | 1.63(1.25) | 1.75(0) | 1.25(0) | 1.75(0) | 1.50(0) | 1.75(0) | |||
5 | 75.88(0.63) | 75.88(3.13) | 76.25(0.63) | 75.38(0.63) | 0(1.25) | 76.32(0.63) | 0(0) | 77.25(0.63) | |||
6 | 0.88(0) | 0(1.88) | 0.75(0.63) | 0(0) | 0(1.88) | 0(0.63) | 0(0) | 0(0) | |||
7 | 0(0) | 0(2.50) | 0(0) | 0(0) | 0(1.25) | 0(1.25) | 0(0.63) | 0(0) | |||
8 | 3.13(0) | 13.88(0.63) | 3.25(0) | 2.50(0) | 2.26(0) | 2.51(0) | 2.25(0) | 2.50(0) | |||
10 | 70.38(0) | 70.88(1.25) | 70.63(0) | 60.63(0) | 46.49(0.63) | 61.40(0) | 12(1.25) | 61.13(0) | |||
11 | 59.38(0.63) | 23.88(3.13) | 59.25(0.63) | 45.50(0.63) | 57.39(0.63) | 42.61(0) | 38.13(0.63) | 45.50(0.63) | |||
12 | 1.63(0) | 9.25(3.13) | 1.63(0.63) | 1.63(0) | 0.38(0) | 1.00(0) | 0.13(1.88) | 1.63(0) | |||
13 | 6.38(0.63) | 4.75(1.25) | 6.25(0) | 5.75(0) | 5.51(0) | 5.64(0) | 4.75(0.63) | 5.75(0) | |||
14 | 0.75(0) | 0(1.25) | 1.25(0.63) | 0.13(0) | 0(0.63) | 0(0.63) | 0(0.63) | 0.13(0) | |||
16 | 86.50(3.75) | 67.75(2.50) | 84.88(3.13) | 78.75(5.63) | 55.26(1.88) | 81.20(1.88) | 8.88(7.50) | 79.25(5.63) | |||
17 | 23.75(1.25) | 4.13(2.50) | 24.50(1.88) | 14.13(0) | 14.29(0) | 14.29(0) | 9.13(0) | 14.13(0) | |||
18 | 10.75(0) | 9.75(2.50) | 10.63(0) | 10.75(0) | 10.78(0.63) | 10.65(0) | 9.63(0.63) | 10.75(0) | |||
19 | 89.00(0) | 82.25(0.63) | 88.38(0) | 98.13(0) | 71.43(0) | 100(0) | 22.00(0.63) | 98.13(0) | |||
20 | 68.25(0) | 48.38(4.38) | 65.13(0) | 57.88(0) | 50.50(0) | 58.90(0) | 11.00(0) | 58.38(0) | |||
21 | 60.75(0) | 51.13(5.00) | 60.50(0) | 61.75(0) | 51.13(0.63) | 62.91(0) | 42.00(3.13) | 61.75(0) |
新窗口打開| 下載CSV
因此,綜合測試數(shù)據(jù)的漏報率和誤報率可以看出,LTDCNPE法在故障檢測過程中具有更佳的效果。與僅考慮空間結構關系的傳統(tǒng)算法PCA和原始NPE算法相比,LTDCNPE算法明顯降低檢測的漏報率,與處理全局時序過程的DNPE算法進行對比,LTDCNPE算法的效果也更為顯著,保留了更多的數(shù)據(jù)特征。
為了更直觀地表明LTDCNPE算法的優(yōu)勢,圖5和圖6展示了故障5、故障10兩種典型故障的檢測結果。故障5是冷凝器冷卻水的入口溫度產(chǎn)生的階躍變化。該故障的顯著影響是引起冷凝器冷卻水流量的階躍變化。當故障發(fā)生時,從冷凝器出口到汽/液分離器的流速增加,導致汽/液分離器的溫度升高,并使分離器冷卻水出口溫度也升高[37]。但是控制回路能夠補償這個變化,并使分離器中的溫度返回到設置點。由圖5可以看出PCA算法和NPE算法雖然在故障初始階段能及時地反映出故障,但隨著過程的推進,統(tǒng)計量又逐漸降低到控制限以下,而此時過程中的故障仍然存在,所以無法持續(xù)進行故障的監(jiān)測。這表明一旦忽略了實際過程中的時序特性,無論使用全局數(shù)據(jù)還是利用局部信息建立模型,都無法實時反映過程的真實狀態(tài)。而四種方法的SPE統(tǒng)計量都是先超限持續(xù)一段時間后又回到正常,這與33個變量特征提取和變換時被賦予的權重大小有關。對于故障5中先發(fā)生異常后恢復至原始狀態(tài)的變量,其對應的權重較大,而保持穩(wěn)定的變量以及一直保持故障狀態(tài)的變量所對應的權重在大多情況下數(shù)值較小,保留的信息較少,使得這部分變量的信息被掩蓋在了可恢復正常變量的信息中。所以最終SPE統(tǒng)計量的變化也符合這個變化趨勢,使SPE數(shù)值最終回到正常范圍內(nèi),無法很好區(qū)分正常和故障時候的數(shù)據(jù)。
圖5
圖5 故障5的TE過程檢測結果
Fig.5 Monitoring results of the Tennessee Eastman process for fault 5
圖6
圖6 故障10的TE過程檢測結果
Fig.6 Monitoring results of the Tennessee Eastman process for fault 10
故障10為一種隨機故障,過程中的某些變量在不同時刻隨機進行變化,檢測結果如圖6所示。在故障發(fā)生的初期,圖6(d)中的
由數(shù)值例子實驗結果可以看出,LTDCNPE算法可以有效識別階躍故障和隨機故障,并且相比于其他方法,具有更高的準確率。由TE平臺的實驗結果可以看出,PCA算法使用全局數(shù)據(jù)建立的模型無法實時地反映過程的真實狀態(tài);NPE算法作為一種較為原始的利用局部信息進行建模的方法,忽略了實際過程擁有的時序特性;DNPE算法構建增廣向量,通過消除輸入變量的相關性來考慮樣本的自相關性,但它仍未很好地捕捉到數(shù)據(jù)間的時變。LTDCNPE算法克服了以上算法的缺點,可以同時提取數(shù)據(jù)中的局部結構和時序信息,對各類故障均能夠做出反應,快速捕捉過程的變化,結果符合實際生產(chǎn)需求。
4 結論
本文提出一種基于LTDCNPE算法的工業(yè)過程故障檢測方法,通過關注局部時差和局部幾何結構,克服了傳統(tǒng)PCA算法和NPE算法僅考慮不同樣本空間距離的缺點,改進了DNPE算法提取時間特征的方式。LTDCNPE算法使用一種新的鄰域選擇方法,從時間和空間角度進行考慮,挑選出更加合適的近鄰樣本對原始樣本進行重構,并利用它們的時序差異為近鄰樣本進行加權,盡可能保留原始數(shù)據(jù)的結構關系,降低信息的丟失程度。通過對比PCA、NPE、DNPE、LTDCNPE算法在數(shù)值例子和TE仿真實驗中的結果,可以看出LTDCNPE算法挑選的時序特征更加合理,并且其在降維和檢測效果上的表現(xiàn)也得到了驗證。
符號說明
特征映射矩陣, | |
局部時間空間差異矩陣, | |
空間約束矩陣, | |
輸入變量數(shù) | |
降維后的維數(shù) | |
最小化重構誤差 | |
帶寬 | |
單位矩陣, | |
核函數(shù) | |
構造鄰域連接圖所需的近鄰樣本數(shù) | |
樣本具有時序相關性的時間窗長度 | |
鄰域尺度 | |
選取的特征值數(shù)量 | |
輸入樣本數(shù) | |
歸一化的時間約束矩陣, | |
密度函數(shù) | |
時間約束矩陣, | |
鄰域中近鄰樣本與中心樣本之間的采樣時差 | |
樣本對應的采樣時間 | |
最優(yōu)權值系數(shù)矩陣, | |
輸入矩陣, | |
新樣本, | |
特征矩陣, | |
新樣本對應的特征向量, | |
近鄰樣本加權后的矩陣, | |
上角標 | |
鄰域中樣本的近鄰樣本序號 | |
下角標 | |
輸入樣本序號 | |
構造鄰域連接圖的樣本序號 | |
重新選取的構造鄰域連接圖的樣本序號 |
- 2025年中科院分區(qū)表已公布!Scientific Reports降至三區(qū)
- 2023JCR影響因子正式公布!
- 國內(nèi)核心期刊分級情況概覽及說明!本篇適用人群:需要發(fā)南核、北核、CSCD、科核、AMI、SCD、RCCSE期刊的學者
- 我用了一個很復雜的圖,幫你們解釋下“23版最新北大核心目錄有效期問題”。
- CSSCI官方早就公布了最新南核目錄,有心的人已經(jīng)拿到并且投入使用!附南核目錄新增期刊!
- 北大核心期刊目錄換屆,我們應該熟知的10個知識點。
- 注意,最新期刊論文格式標準已發(fā)布,論文寫作規(guī)則發(fā)生重大變化!文字版GB/T 7713.2—2022 學術論文編寫規(guī)則
- 盤點那些評職稱超管用的資源,1,3和5已經(jīng)“絕種”了
- 職稱話題| 為什么黨校更認可省市級黨報?是否有什么說據(jù)?還有哪些機構認可黨報?
- 《農(nóng)業(yè)經(jīng)濟》論文投稿解析,難度指數(shù)四顆星,附好發(fā)選題!