基于知識數(shù)據(jù)化表達的制冷空調(diào)系統(tǒng)故障診斷方法

作者：孫哲金華強李康顧江萍黃躍進沈希來源：《化工學報》日期：2022-11-03人氣：1611

隨著近年來能源與碳排放問題的突顯，世界各國紛紛制定自己的能源戰(zhàn)略，我國也將能源戰(zhàn)略放在了突出的位置，提出了“碳達峰·碳中和”的戰(zhàn)略目標[1]。制冷空調(diào)系統(tǒng)主要用于建筑的環(huán)境調(diào)節(jié)，也可用于工業(yè)環(huán)境控制，其能耗已成為建筑能耗的重要組成部分，約占社會能耗總量的20% [2]。由于制冷空調(diào)系統(tǒng)結構復雜、設備種類繁多，存在多種熱質(zhì)交換和功熱轉換形式，在運行過程中不可避免會發(fā)生各類故障。相關研究表明，制冷空調(diào)系統(tǒng)故障運行會造成15%~20%的能耗增加[3]。

長期以來，空調(diào)系統(tǒng)的運行維護管理以“定期檢修+報警搶修”模式為主，盲目性高且難以發(fā)現(xiàn)隱性故障。通過人工智能的方式可極大提高故障特征的自主辨識，實現(xiàn)全時段智能監(jiān)控，降低對運維人員專業(yè)素養(yǎng)的依賴[4]。制冷空調(diào)系統(tǒng)是一類復雜的熱力系統(tǒng)，故障狀態(tài)下系統(tǒng)的熱力參數(shù)會較原狀態(tài)產(chǎn)生偏離，即故障的熱力學征兆，如溫度升高、壓力降低等。偏離后的熱力參數(shù)值不僅與故障狀態(tài)有關，同時受環(huán)境、負荷、工況等諸多因素影響，使得故障和征兆之間的關系不僅復雜而且存在不確定性。這種故障-征兆的復雜映射關系給故障診斷規(guī)則制定帶來極大挑戰(zhàn)，使得基于規(guī)則的故障診斷方法難以保證精度。以深度學習為代表的數(shù)據(jù)驅(qū)動方法憑借其強大的特征提取能力，可以較好地解決復雜熱力系統(tǒng)的診斷難題。Sun等[5-6]針對熱泵空調(diào)系統(tǒng)的深度學習故障診斷方法展開研究，提出一種基準模型+深度卷積網(wǎng)絡的診斷框架，實現(xiàn)了系統(tǒng)偏離特性的高效提取，很好地提升了復雜熱力系統(tǒng)的診斷精度。Wang等[7]面向現(xiàn)場應用場景展開診斷方法研究，利用貝葉斯網(wǎng)絡實現(xiàn)特征高效篩選，解決了現(xiàn)場診斷傳感器數(shù)量少、成本受限等實際問題。van de Sand等[8]針對冷水機組故障診斷問題，提出一種基于區(qū)域自適應的數(shù)據(jù)驅(qū)動診斷方法，緩解了監(jiān)督學習對標記樣本的依賴。劉旭婷等[9]針對冷水機組提出一種基于稀疏局部嵌入深度卷積網(wǎng)絡的故障診斷方法，采用稀疏局部嵌入代替卷積核，有效避免了復雜的訓練和調(diào)參。王路瑤等[10]基于長短時記憶神經(jīng)網(wǎng)絡提出一種空調(diào)系統(tǒng)傳感器故障檢測方法，有效緩解了大滯后系統(tǒng)時序建模精度低的難題。Xiao等[11-14]較早提出了基于貝葉斯網(wǎng)絡的診斷框架，大量研究成果為學科后續(xù)發(fā)展提供極具價值的新思路。Li等[15-17]提出一系列基于深度學習的智能診斷算法用于解決多聯(lián)機、空氣源熱泵、熱泵熱水器等諸多裝置的故障診斷問題。

數(shù)據(jù)驅(qū)動方法的優(yōu)勢在于可以從數(shù)據(jù)中自學習復雜映射關系，這就使得其對標記樣本的質(zhì)量和豐富度具有嚴重依賴，而真實應用場景中足質(zhì)足量的標記樣本往往難以獲取。隨著智能化技術逐步走向應用，解決標記數(shù)據(jù)依賴問題已成為當下研究的重中之重，近兩年來越來越多的學者[18]針對這一問題展開研究。將機理知識融入數(shù)據(jù)驅(qū)動不僅可以降低對標記數(shù)據(jù)的依賴，同時可以提高診斷方法的魯棒性和可靠性。張鈸等[19]指出，將機理知識融入數(shù)據(jù)驅(qū)動是新一代人工智能發(fā)展的必經(jīng)之路。制冷空調(diào)系統(tǒng)故障診斷的實質(zhì)是通過對系統(tǒng)表現(xiàn)的征兆進行模式識別而得出診斷結論，故障和征兆的定性關系可以通過熱力學分析得出，其征兆的規(guī)律性描述正是診斷模型的診斷依據(jù)。因此，通過故障規(guī)律性知識指導實現(xiàn)故障的模式識別，在理論上是可行的。然而，實際情況中，制冷空調(diào)系統(tǒng)常面臨環(huán)境多變、負荷多變以及控制需求多變的問題，導致其運行工況持續(xù)處于動態(tài)過程。動態(tài)條件下的系統(tǒng)征兆也會隨之變化，使得故障和征兆的映射關系出現(xiàn)不確定性，這種動態(tài)征兆是難以通過熱力學精準分析的。如何利用定性的靜態(tài)征兆知識指導實現(xiàn)動態(tài)系統(tǒng)的故障診斷是一個非常困難的問題。

本課題組前期研究發(fā)現(xiàn)，制冷空調(diào)系統(tǒng)故障征兆的實質(zhì)是熱力參數(shù)偏離正?；鶞剩嘧児r下參數(shù)偏離的方向一致，其差異在于偏離大小。例如高負荷下相同故障的參數(shù)偏離量更大。利用熱力學機理分析容易得到故障條件下參數(shù)的偏離方向，但卻難以針對所有工況預測出偏離大小。而事實上，診斷的目標只是將故障類別識別出，無論何種偏離程度均對應同一類故障結果。如果利用一種隨機生成的策略在偏離方向的基礎上獲得不同偏離大小的偽樣本，則相當于得到了不同工況下系統(tǒng)故障的標記數(shù)據(jù)，進而解決標記樣本不足的問題。因此，本文提出一種基于知識數(shù)據(jù)化表達的制冷空調(diào)系統(tǒng)故障診斷方法。首先，通過機理分析構建故障的定性偏離矢量，然后通過一種數(shù)據(jù)隨機縮放策略實現(xiàn)知識的數(shù)據(jù)化表達，達到信息擴增的目的。在實施診斷時為了將真實系統(tǒng)的熱力參數(shù)轉換成生成樣本的偏離形式，提出一種基于基準模型的偏離特性的表征策略。最終，以知識驅(qū)動代替標記樣本實現(xiàn)制冷空調(diào)系統(tǒng)的故障診斷。

1 制冷空調(diào)系統(tǒng)故障診斷知識的數(shù)據(jù)化表達

制冷空調(diào)系統(tǒng)故障狀態(tài)的表現(xiàn)形式是熱力參數(shù)的偏離，這種偏離包含大小和方向兩部分。對于同一種故障而言，不同系統(tǒng)間以及同一系統(tǒng)在不同條件下的特征偏離方向是一致的，不同點在于偏離大小，其受到系統(tǒng)結構、環(huán)境條件和運行工況等不同因素的影響。如果要精確計算出理論上的偏離大小無疑是十分困難的。而事實上，故障診斷完全可以僅依賴不同熱力參數(shù)的偏離方向進行識別。因此，定性的偏離知識表達理論上是可以支撐故障診斷的?？梢酝ㄟ^熱力學分析、數(shù)值仿真、實驗測試等手段獲得特定系統(tǒng)的故障定性偏離規(guī)律，這種規(guī)律是模糊的偏離方向和偏離程度，如參數(shù)1偏大且偏離程度為嚴重。詳細的偏離知識示例見3.1節(jié)。

這種定性的規(guī)則較早被應用到制冷空調(diào)系統(tǒng)故障診斷中，稱之為基于規(guī)則的診斷方法[20]，然而精度均不理想，導致這種結果的原因是制冷空調(diào)系統(tǒng)復雜且多變，故障和征兆之間的映射關系不僅高度非線性且具有一定的不確定性。而數(shù)據(jù)驅(qū)動方法可以通過學習數(shù)據(jù)分布中的深度特征而實現(xiàn)故障-征兆間復雜映射關系的擬合，其診斷精度遠高于基于規(guī)則的方法。因此，2010年以后，絕大多數(shù)制冷空調(diào)故障診斷研究都聚焦于數(shù)據(jù)驅(qū)動方法[21-25]。如果能將制冷空調(diào)系統(tǒng)故障的定性偏離規(guī)律以數(shù)據(jù)的形式表達并通過信息擴增手段豐富其信息量，則可以在不依賴真實標記數(shù)據(jù)的條件下充分利用數(shù)據(jù)驅(qū)動優(yōu)勢。

故障狀態(tài)參數(shù)偏離的表示形式可以稱之為故障診斷知識的多維偏離矢量，每一個參數(shù)既含有方向又含有程度，如果對不同的偏離程度賦予特定的值，則從數(shù)據(jù)的角度可以將其看作一條標記樣本。然而僅利用這一條標記樣本顯然無法滿足數(shù)據(jù)驅(qū)動模型的訓練。如何對多維偏離矢量的信息進行擴增，是亟需解決的問題。由于不同偏離大小代表不同情形下的故障數(shù)據(jù)，這種情形越多代表數(shù)據(jù)的信息越豐富。在一定的范圍內(nèi)對賦值后的多維偏離矢量進行縮放則可以模擬生成不同情形下的標記數(shù)據(jù)。本文提出一種數(shù)據(jù)隨機縮放策略，基于多維偏離矢量生成大量偽數(shù)據(jù)，用于深度模型訓練。數(shù)據(jù)隨機縮放策略的目的就是使多維偏離矢量各個維度經(jīng)過等比放大或縮小，實現(xiàn)不同偏離量的模擬?？s放策略的目的是增加矩陣數(shù)據(jù)的信息熵，以提高深度模型的學習效果。偏離數(shù)據(jù)是故障模式識別的依據(jù)，其主要特征在于偏離方向和偏離大小，對于深度模型而言，相同的偏離方向下不同的偏離幅值對模型分類具有明顯影響。不同制冷空調(diào)系統(tǒng)由于運行工況、所處環(huán)境以及故障嚴重程度的差異，同一種故障的偏離幅值存在差異，用于訓練的數(shù)據(jù)需要盡可能多地包含不同偏離幅值樣本。數(shù)據(jù)縮放策略就是基于這一思路，對矩陣數(shù)據(jù)乘以縮放系數(shù)后得到放大或縮小的矩陣樣本，如式(1)所示。

$[\begin{matrix} a_{1} & ? & j_{1} \\ ? & ? & ? \\ a_{n} & ? & j_{n} \end{matrix}] λ = [\begin{matrix} λ a_{1} & ? & λ j_{1} \\ ? & ? & ? \\ λ a_{n} & ? & λ j_{n} \end{matrix}]$ （1）

多時間步多維度的偏離數(shù)據(jù)構成矩陣數(shù)據(jù)，矩陣數(shù)據(jù)的所有元素均等比縮放，得到新的樣本。這里縮放前的矩陣數(shù)據(jù)可以是真實偏離矩陣也可以是人工賦值的偏離矢量。通過多個縮放系數(shù)對矩陣數(shù)據(jù)縮放可以得到多組新的矩陣數(shù)據(jù)，例如利用0.5、0.75、1.5、2.1四個縮放系數(shù)對同一矩陣數(shù)據(jù)縮放就可以得到四個新的矩陣數(shù)據(jù)。縮放系數(shù)在設定的縮放范圍內(nèi)隨機取值，而縮放系數(shù)的個數(shù)取決于診斷模型所需的訓練樣本數(shù)，這通?？梢愿鶕?jù)神經(jīng)網(wǎng)絡模型的大小而確定，例如訓練樣本需要包含每類故障3000組樣本，則在縮放范圍內(nèi)隨機生成3000個縮放系數(shù)。

圖1是以三類故障為例對縮放策略進行描述，每類故障選取四個特征(蒸發(fā)溫度TRE、冷凝溫度TRC、吸氣溫度T_suc、排氣溫度TR_dis)，每一行代表一個時間點，每個樣本是6×4矩陣數(shù)據(jù)，這里具體數(shù)值是根據(jù)偏離矢量設定的偏離值，每類故障對應一個偏離矩陣。圖1中分別為3、0.5、1.5這三個縮放系數(shù)生成的三個樣本，該樣本作為診斷模型的輸入。圖中的縮放過程與上文描述有兩處不同：(1)紅色參數(shù)并沒有進行縮放；(2)每個縮放后的數(shù)值均添加了一個較小的隨機數(shù)。

圖1

圖1 數(shù)據(jù)隨機縮放策略

Fig.1 Data random scaling strategy

由于真實樣本具有一定的不確定性，簡單利用縮放系數(shù)進行偽樣本生成，其效果是不理想的。本文進一步提出對生成樣本添加標準正態(tài)分布的高斯噪聲，豐富數(shù)據(jù)的信息復雜度，以此提升模型準確性和魯棒性。標準正態(tài)分布是最符合自然界真實分布的，利用該類噪聲可以更好地模擬系統(tǒng)真實擾動。噪聲添加策略使性能得到提升的原因主要有兩個方面：(1)真實殘差數(shù)據(jù)本身是有較大隨機波動的，單純的等比縮放與真實情況不符，高斯噪聲模擬的是系統(tǒng)的隨機擾動，而偏離量模擬的是系統(tǒng)偏離正常工況，二者疊加則表示不同隨機擾動下系統(tǒng)均呈現(xiàn)一種固定的偏離模式，而故障診斷的目的就是識別這種模式，使生成分布與真實分布更接近；(2)添加噪聲實質(zhì)是添加擾動，這種思路借鑒了神經(jīng)網(wǎng)絡中的Dropout層[26]，該網(wǎng)絡層通過隨機失活部分神經(jīng)元以實現(xiàn)擾動添加，使神經(jīng)網(wǎng)絡學習過程得到強化，從而有效避免神經(jīng)網(wǎng)絡過擬合，是公認的提升神經(jīng)網(wǎng)絡魯棒性的方法。本文借鑒這一思路以添加噪聲的方式強化神經(jīng)網(wǎng)絡學習過程，使得模型更加聚焦于偏離規(guī)則這種共性特征。同時，噪聲的添加強度對診斷結果影響較大，弱噪聲起不到模擬擾動的作用，強噪聲則會引入過多的干擾從而降低診斷精度，因此，需要實驗驗證最優(yōu)的噪聲添加強度。

此外，本文還提出隨機縮放策略有三個關鍵的技巧，可以保證其有效實施。(1)并不是所有特征都進行縮放，不產(chǎn)生偏離的特征不進行縮放，這些不偏離的特征可以根據(jù)故障自身的規(guī)律人為指定，如圖1中紅色數(shù)據(jù)，以避免非偏離參數(shù)的誤差被放大強化。(2)不產(chǎn)生偏離的特征要設置一個小于1的值，比如0.1，實驗證明這樣比1的效果好很多。(3)縮放系數(shù)的生成范圍設定非常關鍵，縮放范圍需要考慮目標系統(tǒng)可能出現(xiàn)的嚴重程度，越嚴重的故障偏離量越大，而這種偏離量可以根據(jù)經(jīng)驗估算?？s放后的偏離數(shù)據(jù)的上下限應包含所有故障程度下的偏離范圍。例如目標系統(tǒng)可能出現(xiàn)的冷凝溫度最大故障偏離小于5℃，最小故障偏離大于1℃，設定的該偏離矢量值為2，則縮放范圍需覆蓋(0.5, 2.5)。由于多維偏離矢量的不同參數(shù)縮放范圍可能不同，最終的統(tǒng)一縮放范圍應取大。經(jīng)過隨機的縮放后，生成的偽數(shù)據(jù)包含了各類情況下的系統(tǒng)故障信息，以此訓練深度模型可以很好地保證其在實際診斷時的適用性。這一過程的實質(zhì)就是實現(xiàn)了故障診斷知識的數(shù)據(jù)化表達，其完整的流程見圖2。

圖2

圖2 知識的數(shù)據(jù)化表達流程

Fig.2 The expression process of digitized knowledge

2 基于知識數(shù)據(jù)化表達的制冷空調(diào)系統(tǒng)故障診斷方法

基于數(shù)據(jù)化的知識實現(xiàn)完整的制冷空調(diào)系統(tǒng)故障診斷流程見圖3。方法分為兩個部分。(1)模型訓練：使用數(shù)據(jù)化的知識訓練診斷模型，使之得到故障診斷的劃分邊界，訓練完畢的模型用于診斷目標系統(tǒng)故障類別。(2)診斷實施：通過偏離特性表征策略，使真實運行數(shù)據(jù)以偏離殘差的形式表征，這種表征形式和數(shù)據(jù)化的知識形式相同，從而使得診斷模型可以對其進行診斷分類。

圖3

圖3 診斷總體流程圖

Fig.3 The flowchart of proposed method

2.1 生成樣本一致性評估方法

第1節(jié)中利用隨機縮放策略實現(xiàn)了知識數(shù)據(jù)化表達，生成了帶有標記的偽數(shù)據(jù)，這種生成數(shù)據(jù)的質(zhì)量高低決定了訓練模型的診斷效果。因此，首先要對生成樣本的一致性進行評估，目的是為了獲得和真實分布差異最小的生成樣本。

對于數(shù)據(jù)分布的距離評估有很多種方法，如核最大平均差異(kernel maximum mean discrepancy，MMD)[27]、瓦瑟斯坦距離(Wasserstein distance)[28]和弗雷歇距離(Fréchet inception distance，F(xiàn)ID)[29]等。其中MMD距離最常用于估計兩分布差異 [30]。在固定的核函數(shù)下，MMD指標用于度量真實分布和生成分布的差異，MMD值越小，代表兩分布差異越小。MMD指標可以定義為式(2)：

$M M D^{2} (P_{r}, P_{g}) = E_{\begin{array}{l} x_{r}, x_{r}^{'} ~ Ρ_{r}, \\ x_{g}, x_{g}^{'} ~ Ρ_{g} \end{array}} [k (x_{r}, x_{r}^{'}) - 2 k (x_{r}, x_{g}) + k (x_{g}, x_{g}^{'})]$ （2）

式中， $P_{r}$ 和 $P_{g}$ 分別表示兩個待度量分布； $x_{r}$ 和 $x_{g}$ 為分布中具體樣本；k是映射函數(shù)。 $x_{r}$ 和 $x_{g}$ 分別理解為兩個不同數(shù)據(jù)集內(nèi)的數(shù)據(jù)樣本，式(2)的目的是尋找一個映射函數(shù)k，使得計算出的所有樣本平均距離有最大值，即得到了MMD值。通過MMD評估對知識數(shù)據(jù)化表達策略進行優(yōu)化，最終實現(xiàn)生成樣本的質(zhì)量最優(yōu)。

2.2 目標系統(tǒng)偏離特性的表征策略

生成數(shù)據(jù)其實質(zhì)是系統(tǒng)熱力參數(shù)偏離特征，而目標系統(tǒng)直接采集的運行數(shù)據(jù)是真實的熱力值。如果要使用生成數(shù)據(jù)訓練模型診斷目標系統(tǒng)，則必須將目標系統(tǒng)的數(shù)據(jù)以偏離特征的形式予以表征。偏離特征是指故障狀態(tài)下熱力參數(shù)偏離理論正常值，獲取偏離特征則首先需要精準得到理論上的基準值。熱力參數(shù)受到多種因素影響，呈現(xiàn)非線性、強耦合的特征。如排氣壓力這一熱力參數(shù)不僅與系統(tǒng)結構和工質(zhì)有關，還與環(huán)境溫度、負荷大小、控制目標溫度等多種因素有關。要想在考慮眾多因素的情況下準確預測熱力健康值是十分困難的。本課題組前期提出一種基于深度神經(jīng)網(wǎng)絡的制冷空調(diào)系統(tǒng)基準模型[5]，該模型融合卷積網(wǎng)絡、編-解碼器、循環(huán)神經(jīng)網(wǎng)絡，以數(shù)據(jù)驅(qū)動的方式解決了大滯后、強耦合系統(tǒng)建模困難的問題，模型結構如圖4所示。該模型處理時序數(shù)據(jù)，每個樣本包含前置時間段(t1~tn )和預測時間段(tn+1~tn+m )。前置時間段僅包含狀態(tài)參數(shù)，通常為10~15個時間步長，預測時間段包含之后的時間步的輸入?yún)?shù)，結合后續(xù)診斷模型要求的數(shù)據(jù)結構，預測時間段可以是10~20個時間步長。前置時間段的數(shù)據(jù)是二維矩陣數(shù)據(jù)(參數(shù)個數(shù)×時間步長)，表征預測開始前一段時間系統(tǒng)的持續(xù)狀態(tài)，對大滯后系統(tǒng)預測具有重要作用，這里使用卷積網(wǎng)絡處理前置時間段數(shù)據(jù)并輸入到編-解碼器。通過解碼器將前置狀態(tài)信息編碼到固定長度的向量并輸入到循環(huán)神經(jīng)網(wǎng)絡，作為該網(wǎng)絡的初始值，可以較好地繼承預測時間段開始時刻系統(tǒng)所處的狀態(tài)。循環(huán)神經(jīng)網(wǎng)絡根據(jù)每一個時刻的輸入變量預測對應時刻的狀態(tài)變量，最終實現(xiàn)多步狀態(tài)變量的預測。詳細的模型介紹和實驗分析可以參考文獻[5, 30]。模型的輸入為系統(tǒng)的外界自變參數(shù)，包括環(huán)境參數(shù)、控制參數(shù)、負載參數(shù)，例如環(huán)境溫度、壓機轉速、膨脹閥開度、風機轉速等。輸出的預測值為系統(tǒng)的因變參數(shù)，主要包括系統(tǒng)各類溫度、壓力等熱力參數(shù)，通常為故障的敏感特征參數(shù)。具體的輸入輸出變量需要根據(jù)數(shù)據(jù)集確定，本文使用的參數(shù)選擇方案見3.1節(jié)?；鶞誓Ｐ屠媒】迪到y(tǒng)采集的運行數(shù)據(jù)訓練，實現(xiàn)健康系統(tǒng)的擬合，屬于回歸建模問題。由于健康運行數(shù)據(jù)通常容易獲取，因而該訓練策略不會限制基準模型的實際應用。

圖4

圖4 制冷空調(diào)系統(tǒng)基準模型結構

Fig.4 The structure of refrigeration and air-conditioning system benchmark model

利用該基準模型實現(xiàn)制冷空調(diào)系統(tǒng)基準預測，并以此計算出目標系統(tǒng)參數(shù)偏離量，即實現(xiàn)了運行數(shù)據(jù)向偏離特征的轉換。此時的偏離值是真實的偏離值，但不同熱力參數(shù)的偏離值含義不同，如排氣壓力偏離0.1 MPa已經(jīng)偏離很大了，而排氣溫度偏離0.5℃都不算大，這是由于不同參數(shù)的量綱不同。為了保證所有偏離量的含義相同，需要對其去量綱化。這里使用基準模型的每個參數(shù)下的誤差作為量綱去除的系數(shù)，誤差可以在驗證數(shù)據(jù)集上通過對基準模型預測值和真實值求平均差得到，例如在健康數(shù)據(jù)集中基準模型對排氣溫度的預測誤差為0.5℃，則對每個真實的排氣溫度殘差除以0.5，得到統(tǒng)一的去量綱偏離量。具體表征策略如下。

第一步：獲取系統(tǒng)的熱力基準信息。即得到系統(tǒng)各特征參數(shù)健康狀態(tài)下的理論值，該理論值受到環(huán)境、工況、負荷等多因素的共同影響。

第二步：獲取敏感特征的殘差值。即將第一步獲取的基準值和系統(tǒng)實測值做差，得到的差值的實質(zhì)是熱力偏離量。

第三步：計算殘差與基準誤差量的比值?；鶞手但@取依賴預測模型，其自身帶有一定誤差，使得不產(chǎn)生偏離的特征亦會產(chǎn)生較小的殘差量，該值可以通過訓練數(shù)據(jù)集計算得到。通過計算殘差和誤差的比值可以清晰得到偏離倍數(shù)，同時對不同量綱實現(xiàn)統(tǒng)一。

本文提出的使用人工生成的偏離參數(shù)作為模型的訓練數(shù)據(jù)的方法，診斷實施時同時需要將目標系統(tǒng)的運行數(shù)據(jù)轉化為偏離殘差，而不是直接使用實際運行數(shù)據(jù)。其主要原因及優(yōu)勢為：(1)偏離殘差的本質(zhì)是故障特征，以偏離的形式表征故障可以極大降低數(shù)據(jù)的復雜度，抵消熱力系統(tǒng)自身滯后性和非線性對診斷帶來的影響，從而提高診斷精度。該結論在前期研究工作中已證明[5]。(2)本文利用生成數(shù)據(jù)代替真實標記數(shù)據(jù)以解決標記數(shù)據(jù)不足的問題，利用故障熱力學偏離規(guī)律可以生成偏離殘差，但卻無法生成真實的運行數(shù)據(jù)。因此，要想實現(xiàn)知識數(shù)據(jù)化表達，這種數(shù)據(jù)必須是偏離殘差數(shù)據(jù)。

2.3 基于卷積神經(jīng)網(wǎng)絡的故障診斷模型

第1節(jié)介紹了數(shù)據(jù)縮放策略以實現(xiàn)知識的數(shù)據(jù)化表達，隨著生成數(shù)據(jù)量的增多，生成數(shù)據(jù)分布和真實數(shù)據(jù)分布的重合度會隨之增加，但仍然不會完全重合，這就需要診斷算法具備一定的擴展性。深度神經(jīng)網(wǎng)絡通過多層復雜變換處理樣本深層特征，可以較好地對樣本分布進行擴展。殘差數(shù)據(jù)是典型的多維時序數(shù)據(jù)，可以將其認為是一種矩陣數(shù)據(jù)。因此，診斷模型使用深度卷積網(wǎng)絡搭建，以充分利用其對矩陣數(shù)據(jù)復雜特征的學習能力，具體結構見表1。模型使用生成的偽數(shù)據(jù)訓練，從而解決對真實標記數(shù)據(jù)的依賴。實施診斷時，將目標系統(tǒng)的數(shù)據(jù)經(jīng)過2.2節(jié)方法轉化后輸入模型，模型輸出即為故障預測類別。矩陣數(shù)據(jù)的列數(shù)等于敏感特征的數(shù)量，而行數(shù)是截取的時間步長度，通常會根據(jù)敏感特征數(shù)據(jù)選擇時間步長度，使其行列數(shù)接近。

表1 深度診斷模型網(wǎng)絡結構

Table 1 The network structure of deep diagnosis model

網(wǎng)絡層	輸出尺寸	參數(shù)數(shù)量
卷積層	(none, 9, 6, 32)	416
批歸一化	(none, 9, 6, 32)	128
Dropout層	(none, 9, 6, 32)	0
卷積層	(none, 6, 5, 64)	16448
批歸一化	(none, 6, 5, 64)	256
Dropout層	(none, 6, 5, 64)	0
卷積層	(none, 4, 4, 128)	49280
批歸一化	(none, 4, 4, 128)	512
Dropout層	(none, 4, 4, 128)	0
Flatten層	(none, 2048)	0
全連接層	(none, 128)	262272
Softmax層	(none, 6)	774

新窗口打開| 下載CSV

3 實驗數(shù)據(jù)集與平臺

3.1 實驗數(shù)據(jù)集

本文利用ASHRAE RP-1043數(shù)據(jù)集進行實驗研究[31]。ASHRAE RP-1043是美國供暖、制冷與空調(diào)工程師學會于1999年啟動的項目，全名為fault detection and diagnostic (FDD) requirements and evaluation tools for chillers，旨在建立一個用于制冷系統(tǒng)故障診斷研究及方法評估的數(shù)據(jù)集，該數(shù)據(jù)集包含不同負載、不同故障條件下的制冷裝置瞬態(tài)和穩(wěn)態(tài)的運行數(shù)據(jù)。項目測試系統(tǒng)為一臺制冷量為90冷噸(316.5 kW)的離心式制冷機組(圖5)，使用R134a制冷工質(zhì)，機組安裝在70℉(21.1℃)的恒溫室中。該數(shù)據(jù)集是一個常用的公開數(shù)據(jù)集，以此作為實驗數(shù)據(jù)集可以較好地驗證提出方法的有效性。

圖5

圖5 制冷機組結構原理圖[31]

Fig.5 Schematic diagram of chiller structure[31]

本文選擇項目中6類故障和1類健康數(shù)據(jù)，每類故障包含4種不同嚴重程度。這6類故障分別是：冷凝器結垢(cf)、冷卻水流量減少(fwc)、冷凍水流量減少(fwe)、含非凝性氣體(nc)、制冷劑泄漏(rl)、制冷劑過充(ro)。每種故障不同嚴重程度的模擬條件見表2。

表2 不同嚴重程度故障的模擬條件

Table 2 Simulated conditions for faults of various severity

故障類別	Level1程度	Level2程度	Level3程度	Level4程度
冷凝器結垢（cf）	堵塞10%的換熱管	堵塞20%的換熱管	堵塞30%的換熱管	堵塞40%的換熱管
冷卻水流量減少（fwc）	水流量減少10%	水流量減少20%	水流量減少30%	水流量減少40%
冷凍水流量減少（fwe）	水流量減少10%	水流量減少20%	水流量減少30%	水流量減少40%
含非凝性氣體（nc）	含1%非凝性氣體	含2%非凝性氣體	含3%非凝性氣體	含4%非凝性氣體
制冷劑泄漏（rl）	泄漏10%制冷劑	泄漏20%制冷劑	泄漏30%制冷劑	泄漏40%制冷劑
制冷劑過充（ro）	過充10%制冷劑	過充20%制冷劑	過充30%制冷劑	過充40%制冷劑

新窗口打開| 下載CSV

針對這一數(shù)據(jù)集，Comstock等 [32]對其特征的敏感程度及其偏離特性進行了研究，選定了7個關鍵特征用來表征故障，分別是：蒸發(fā)器進出口水溫差(TEI-TEO)、冷凝器進出口水溫差(TCO-TCI)、蒸發(fā)器壓力(PRE)、冷凝器壓力(PRC)、過冷度(TRCsub)、吸氣過熱度(Tshsuc)、排氣過熱度(Tshdis)。并建立了不同故障下特征參數(shù)的偏離矢量表(表3)，這一表格就是故障偏離特性的定性知識表達。本文根據(jù)這一知識進行診斷，而在現(xiàn)實診斷過程中亦可以通過理論推演、人為經(jīng)驗等多種方式獲取定性知識表達。

表3 故障的多維偏離矢量

Table 3 Multi-dimensional deviation vector of failure

故障類別	TEI-TEO	TCO-TCI	PRE	PRC	TRCsub	Tshsuc	Tshdis
cf	●	↑	●	↑↑	●	●	●
fwc	●	↑↑↑	↑	↑↑	↑↑	↓	●
fwe	↑↑↑	●	↑	●	●	↓	●
nc	●	↑	↑	↑↑↑	↑↑↑↑	●	↑↑
rl	●	●	●	↓↓	↓↓↓	●	●
ro	●	?	↓	↑↑	↑↑↑	●	↑

新窗口打開| 下載CSV

由于偏離特性的表征需要用到基準模型，根據(jù)2.2節(jié)中對基準模型的介紹，需要從ASHRAE RP-1043數(shù)據(jù)集中分離出用于基準模型輸入輸出的變量集?；鶞誓Ｐ偷妮敵鲎兞烤褪巧鲜?個故障特征，而輸入變量應該是系統(tǒng)的自變量，包含環(huán)境相關變量及控制相關變量，具體包括：蒸發(fā)器入水溫度、冷凝器入水溫度、交互換熱器冷凝側入水溫度、交互換熱器冷凝側出水溫度、交互換熱器蒸發(fā)側入水溫度、交互換熱器蒸發(fā)側出水溫度、外部入水溫度、外部出水溫度、熱水入水溫度、熱水出水溫度、冷凝器水流量、蒸發(fā)器水流量、小型蒸汽閥開度、大型蒸汽閥開度、三通閥開度、外部水閥開度。

3.2 算法運行環(huán)境

深度學習算法使用Tensorflow和Python編程實現(xiàn)，版本分別為2.6.0和3.9.7，開發(fā)環(huán)境為Pycharm 2018。GPU加速算法使用CUDA11.2和cuDNN8.1支持庫。算法的運行平臺為一臺圖形服務器，GPU是NVIDIA GeForce RTX 3080Ti，CPU是Intel i9-11900K，內(nèi)存為64 G，操作系統(tǒng)是64位Windows 10。

4 實驗與分析

本節(jié)對前文提出方法進行實驗分析。首先，針對目標系統(tǒng)訓練基準模型，進而實現(xiàn)偏離表征，獲取后續(xù)對比實驗所需格式的真實樣本。然后，利用MMD算法對生成樣本和真實樣本的一致性進行評估，驗證最優(yōu)數(shù)據(jù)生成策略。進一步，利用生成數(shù)據(jù)訓練診斷模型并在真實數(shù)據(jù)集上驗證分析，得到最佳診斷策略。最后，與當下主流的監(jiān)督學習對比，驗證提出方法的有效性和優(yōu)勢。

4.1 目標系統(tǒng)數(shù)據(jù)的偏離表征

目標系統(tǒng)數(shù)據(jù)的偏離表征依賴基準模型實現(xiàn)，基準模型的精度決定了表征的準確性。參照圖4構建基準模型，并利用目標系統(tǒng)的健康運行數(shù)據(jù)訓練，使之可以良好地擬合健康系統(tǒng)動態(tài)特性。模型使用12000組樣本訓練，每組樣本的時間步長為12，并在3000組不參與訓練的測試數(shù)據(jù)集上驗證模型精度。模型的輸入?yún)?shù)為環(huán)境和控制相關變量，決定了系統(tǒng)的外部條件，這里使用3.1節(jié)中選定的輸入?yún)?shù)。輸出參數(shù)為熱力狀態(tài)參數(shù)，是受外部條件作用下的系統(tǒng)表現(xiàn)，這里選擇的是表3中的7個關鍵參數(shù)。使用Adam優(yōu)化器和MSE損失函數(shù)，訓練100輪后，測試數(shù)據(jù)集上的損失值為0.0015。在3000組健康測試樣本上進行模型誤差計算，得到7個關鍵參數(shù)的誤差絕對均值(表4)。這里誤差均值是3000組樣本上預測值和真實值的平均偏離量，如TEI-TEO的誤差均值為0.045，代表基準模型對該參數(shù)預測的平均誤差為0.045℃，可見預測精度已非常高，遠超物理模型的預測精度。

表4 基準模型的預測誤差絕對均值

Table 4 The absolute mean of the prediction error of the benchmark model

參數(shù)	誤差均值
TEI-TEO	0.045
TCO-TCI	0.043
PRE	0.152
PRC	0.395
TRCsub	0.213
Tshsuc	0.169
Tshdis	0.355

新窗口打開| 下載CSV

利用訓練好的基準模型對目標系統(tǒng)的狀態(tài)值進行預測，得到目標系統(tǒng)所處環(huán)境和控制條件下理論參數(shù)的健康基準值，并與實測值進行做差，得到偏離殘差值。進一步去量綱化，將殘差除以表4中基準模型誤差，得到偏離比例系數(shù)，其數(shù)學表達見式(3)。

$y = \frac{y_{r e a l} - y_{p r e}}{e r r}$ （3）

式中，y表示偏離比例系數(shù)；yreal表示真實值；ypre表示預測值；err表示模型誤差值。這種比例系數(shù)的形式與生成的偽數(shù)據(jù)形式一致，實質(zhì)上偽數(shù)據(jù)就是為了模擬偏離比例系數(shù)。

由于偏離比例系數(shù)通常大于1，對于一些嚴重的故障，偏離比例系數(shù)可能達到20，神經(jīng)網(wǎng)絡對這種數(shù)據(jù)不太適用，需要進行歸一化處理。深度學習中的歸一化包括兩類：嚴格歸一化、非嚴格歸一化。利用arctan等函數(shù)將數(shù)據(jù)嚴格限制到小于1的方式屬于嚴格歸一化，這種方式適用于無法處理大于1的算法。然而，這種歸一化對數(shù)據(jù)進行了非線性處理，使得部分數(shù)據(jù)區(qū)間的差異被放大或縮小，給算法識別帶來難度。而非嚴格歸一化則不會強制限定到1以內(nèi)，其處理方式更加自由。本文使用線性歸一，對所有偏離數(shù)據(jù)除以5，屬于非嚴格歸一化。系數(shù)5是根據(jù)經(jīng)驗設定，該值與系統(tǒng)制冷量有關，通常制冷量越大該值應該越高，使處理后的數(shù)據(jù)最大值接近1。這種線性歸一可以使數(shù)據(jù)范圍更加收斂，同時最大程度保留原有數(shù)據(jù)的有效信息。

4.2 基于MMD的生成樣本一致性評估

基于隨機縮放策略的數(shù)據(jù)生成需要首先進行多維偏離矢量的選值和縮放范圍設定。其中，多維偏離矢量選值指的是對不同偏離程度的特征賦予具體的數(shù)值，而縮放范圍設定則是限制樣本隨機縮放的上下限。這一過程需要考慮到對象實際物理情況和設計的診斷范圍。Comstock等 [32]對ASHRAE RP-1043項目中故障的偏離特性進行了實驗分析，得出了定性的偏離規(guī)律。雖然直接利用這些定性規(guī)律實現(xiàn)動態(tài)工況故障診斷是十分困難的，但相關規(guī)律可以作為本文知識來源。而對于其他情形的診斷過程，亦可以根據(jù)對目標系統(tǒng)的相關經(jīng)驗設定偏離矢量選值和縮放范圍。本文參考文獻[32]對表3中多維偏離矢量的取值按照偏離程度分別設定，↑/↓取值為2/-2，↑↑/↓↓取值為5/-5，↑↑↑/↓↓↓取值為10/-10，↑↑↑↑/↓↓↓↓取值為20/-20，●取值為0.1，縮放范圍為0.7~3.0。

本文研究中發(fā)現(xiàn)，單純利用隨機縮放生成的偽數(shù)據(jù)很難接近真實分布，這主要是由于真實系統(tǒng)具有高度復雜且不確定的特性，使得真實的殘差樣本具有較高的隨機擾動性。針對這一特點，本文提出對生成數(shù)據(jù)添加隨機噪聲的策略，使生成數(shù)據(jù)與真實數(shù)據(jù)一致性更佳。噪聲的添加效果與添加噪聲的幅值有密切關系，噪聲太小作用無法體現(xiàn)，而噪聲太強會破壞數(shù)據(jù)原有結構。接下來利用實驗方式對不同強度噪聲添加以及無噪聲添加的生成數(shù)據(jù)進行樣本一致性評估。如表5所示，對添加的標準正態(tài)分布噪聲進行系數(shù)相除，得到不同強度的噪聲，同時與不添加噪聲的生成數(shù)據(jù)對比。用于評估的真實數(shù)據(jù)集包含每類故障2000組樣本。

表5 不同策略下生成樣本和真實樣本的MMD評估

Table 5 MMD value of generated samples and real samples under different strategies

故障類別	MMD值
故障類別	無噪聲	噪聲/2	噪聲/1	噪聲/0.5	噪聲/0.25	噪聲/0.15	噪聲/0.10	噪聲/0.05	噪聲/0.025	噪聲/0.01
正常(normal)	0	0.546	0.216	0.161	0.216	0.235	0.233	0.228	0.225	0.224
冷凝器結垢(cf)	0.752	0.643	0.46	0.228	0.174	0.205	0.23	0.233	0.228	0.225
冷卻水流量減少(fwc)	0.513	0.52	0.512	0.483	0.42	0.319	0.267	0.207	0.225	0.231
冷凍水流量減少(fwe)	0.4	0.396	0.406	0.352	0.272	0.202	0.179	0.205	0.227	0.229
含非凝性氣體(nc)	0.55	0.55	0.528	0.514	0.448	0.371	0.318	0.251	0.256	0.26
制冷劑泄漏(rl)	0.777	0.712	0.59	0.364	0.215	0.208	0.225	0.236	0.229	0.225
制冷劑過充(ro)	0.578	0.553	0.546	0.477	0.325	0.237	0.207	0.221	0.235	0.227

注：方框內(nèi)數(shù)據(jù)代表最優(yōu)值，下同。

新窗口打開| 下載CSV

從表5可以看出，不添加噪聲的生成數(shù)據(jù)與真實數(shù)據(jù)的MMD值普遍高于添加噪聲的生成數(shù)據(jù)，表示不添加噪聲的生成質(zhì)量較差。而添加噪聲的生成數(shù)據(jù)MMD值隨添加強度增加呈現(xiàn)先下降后上升趨勢，不同故障類別的最小MMD值對應的噪聲強度不同，整體分布于2倍標準正態(tài)分布噪聲(/0.5)和20倍標準正態(tài)分布噪聲(/0.05)之間。其中，對于正常數(shù)據(jù)、cf故障以及rl故障而言，最小MMD值出現(xiàn)在更弱的噪聲添加策略處，而其他故障的最小MMD值則對應相對較強的噪聲添加策略。深入分析可知，偏離程度越明顯的故障類別適于添加更強的噪聲，這是因為其自身的偏離較大，更強的噪聲也不會對其偏離特性產(chǎn)生較大的影響。而自身偏離較小的故障則對噪聲更加敏感，太強的噪聲會明顯干擾其正常分布。由于MMD分布的評估并不能完全代表其最終的診斷效果，且在/0.5和/0.05添加策略之間的MMD值差異并不大，因此，最終的噪聲添加策略需要進一步結合診斷實驗確定。

4.3 基于知識數(shù)據(jù)化的故障診斷實驗驗證

本節(jié)對基于知識數(shù)據(jù)化的診斷方法進行實驗驗證，驗證數(shù)據(jù)集來自ASHRAE RP-1043，該數(shù)據(jù)集細節(jié)已在3.1節(jié)描述。本節(jié)結合4.2節(jié)實驗結果，針對MMD值最小的5種噪聲添加策略和無噪聲添加策略進行6組對照實驗。診斷模型利用生成的偽數(shù)據(jù)訓練，每種故障類別包含3000組樣本，共計21000組樣本。其中，按照3∶1的比例分割訓練集和驗證集。使用Adam優(yōu)化器，批大小為128，訓練50輪。完成訓練的模型在真實數(shù)據(jù)集上進行測試，測試集上每類故障2000組樣本，結果如表6所示?？梢钥闯觯砑硬煌瑥姸仍肼暤纳刹呗韵略\斷精度和MMD評估呈現(xiàn)較高的相似性。/0.15的正態(tài)分布噪聲添加下，模型的診斷精度整體上最高，而/0.15的噪聲強度正好是5類添加噪聲強度中的中間水平，這是一種綜合效果的體現(xiàn)。同時可以發(fā)現(xiàn)，在不同嚴重程度數(shù)據(jù)測試上，越嚴重的故障越容易被診斷出來，越輕微的故障診斷效果越差。這應該是由于輕微故障表征不明顯且被動態(tài)工況波動覆蓋，導致診斷難度提升。最終表明，使用標準正態(tài)分布除0.15的噪聲添加下，訓練模型的診斷性能最佳，總體正確率可達82.67%，比不添加噪聲的診斷精度高11.64%。由于實際應用時，這類漸變熱力故障并不需要太高的響應速度，完全可以多次診斷后綜合決策，因此這一診斷精度已經(jīng)較好地滿足實際應用需求。

表6 不同生成策略下故障診斷精度對比

Table 6 Comparison of fault diagnosis accuracy under different generation strategies

故障類別	故障嚴重程度	正確率/%
故障類別	故障嚴重程度	無噪聲	噪聲/0.5	噪聲/0.25	噪聲/0.15	噪聲/0.10	噪聲/0.05
正常(normal)	無	78.87	91.52	98.76	98.00	86.78	40.33
冷凝器結垢 (cf)	堵塞10%的換熱管-Level1	39.32	43.72	47.84	53.88	51.71	51.17
	堵塞20%的換熱管-Level2	59.37	61.04	64.32	83.32	69.66	56.69
	堵塞30%的換熱管-Level3	61.79	66.72	65.88	79.84	68.96	59.23
	堵塞40%的換熱管-Level4	75.04	70.68	73.00	83.72	79.54	58.95
冷卻水流量減少 (fwc)	水流量減少10%-Level1	94.11	82.32	98.92	99.20	88.06	80.27
	水流量減少20%-Level2	93.80	64.52	99.84	100.0	100.0	99.64
	水流量減少30%-Level3	99.92	99.92	100.0	99.52	100.0	100.0
	水流量減少40%-Level4	99.65	100.0	100.0	99.84	100.0	100.0
冷凍水流量減少 (fwe)	水流量減少10%-Level1	60.32	73.00	89.28	65.44	67.05	52.20
	水流量減少20%-Level2	80.39	99.52	99.76	99.80	99.92	97.69
	水流量減少30%-Level3	92.91	99.80	99.96	100.0	100.0	100.0
	水流量減少40%-Level4	98.20	100.0	100.0	100.0	100.0	100.0
含非凝性氣體 (nc)	含1%非凝性氣體-Level1	64.80	70.56	66.64	61.16	65.24	67.35
	含2%非凝性氣體-Level2	68.31	77.60	79.24	75.08	72.66	70.45
	含3%非凝性氣體-Level3	71.80	78.28	81.12	72.92	75.59	73.87
	含4%非凝性氣體-Level4	80.27	88.24	97.44	83.76	94.00	99.19
制冷劑泄漏 (rl)	泄漏10%制冷劑-Level1	5.56	1.68	0.08	0.00	8.55	27.68
	泄漏20%制冷劑-Level2	11.29	25.16	4.48	2.48	10.76	27.60
	泄漏30%制冷劑-Level3	71.81	94.36	98.60	97.48	97.11	46.43
	泄漏40%制冷劑-Level4	93.87	99.60	99.96	99.00	97.78	89.84
制冷劑過充 (ro)	過充10%制冷劑-Level1	55.19	39.96	55.16	88.40	44.72	24.05
	過充20%制冷劑-Level2	66.24	51.08	59.36	91.84	56.69	28.80
	過充30%制冷劑-Level3	68.67	57.04	77.40	93.84	91.60	77.61
	過充40%制冷劑-Level4	60.81	51.44	76.88	92.12	88.86	76.91
總體	Level1	56.88	57.54	65.24	66.58	58.87	49.01
	Level2	65.47	67.21	72.25	78.65	70.92	60.17
	Level3	77.97	83.95	88.82	91.66	88.58	71.07
	Level4	83.82	85.93	92.29	93.78	92.42	80.74
	Level1~Level4	71.03	73.65	79.65	82.67	77.70	65.25

新窗口打開| 下載CSV

進一步對最優(yōu)生成策略下卷積網(wǎng)絡的全連接層輸出進行可視化處理。如圖6所示，分別利用不同嚴重程度數(shù)據(jù)進行可視化分析，每種故障200組樣本?？梢钥闯?，整體上診斷模型對7個類別可以較好聚類和分離，但仍存在部分故障的空間分布較近，使得相互誤診率較高。如Level1中cf和rl的空間分布存在部分混疊，rl和正常數(shù)據(jù)分布接近，Level2中rl和正常數(shù)據(jù)分布十分接近，造成實際診斷中Level1的cf和rl以及Level2的rl故障診斷精度較差。這主要是由于cf和rl故障在輕微狀態(tài)下隱匿性較高，被熱力補償和動態(tài)工況波動所覆蓋，導致征兆不明顯。這種情形即便是監(jiān)督學習也很難達到較高的識別精度。

圖6

圖6 模型全連接層輸出特征的可視化

Fig.6 Visualization of model fully connected layer

4.4 與監(jiān)督訓練故障診斷方法的對比分析

現(xiàn)階段智能診斷算法以數(shù)據(jù)驅(qū)動的監(jiān)督學習模式為主。因此，有必要將監(jiān)督訓練模型與本文方法對比研究。監(jiān)督學習算法最主要的問題是標記數(shù)據(jù)獲取困難，在無法獲取覆蓋全局信息的數(shù)據(jù)集時，模型的適應性存在較大局限。不同嚴重程度的故障數(shù)據(jù)分布不同，僅利用單一嚴重程度數(shù)據(jù)訓練的模型在其他嚴重程度上會產(chǎn)生精度下降的現(xiàn)象，而實際上可能的嚴重程度是無限多的，很難獲取所有可能嚴重程度的標記數(shù)據(jù)。本文針對這一現(xiàn)實問題，對比不同訓練數(shù)據(jù)下的監(jiān)督學習方法和本文提出方法的診斷精度和自適應性，驗證本文方法的優(yōu)勢。

本節(jié)設置6組對比實驗，分別是本文提出的知識數(shù)據(jù)化方法和利用Level1、Level2、Level3、Level4以及Level1~Level4全部數(shù)據(jù)作為訓練樣本的監(jiān)督學習方法。模型的結構設計和表2相同，每類故障使用2000組樣本，使用Adam優(yōu)化器，批大小為128，訓練50輪。

圖7展示了對比結果。從總體精度上來看，利用知識數(shù)據(jù)化表達的診斷精度為82.7%，這一結果比使用全部數(shù)據(jù)訓練模型的88.2%差，這是很容易理解的，當數(shù)據(jù)充足時監(jiān)督學習的效果理應最好，本文重點對比標記數(shù)據(jù)不充足的情況。從前5組對比實驗來看，本文提出的方法僅次于利用Level2數(shù)據(jù)集訓練的模型，診斷正確率低0.8%，而相比于其他3組實驗的正確率分別高出2.8%、5.9%、20.3%。進一步分析診斷方法在不同嚴重程度上的適應性。本文提出方法和4組單一嚴重程度數(shù)據(jù)訓練方法在不同嚴重程度驗證集上的最優(yōu)診斷正確率分別為：93.8%、83.6%、93.0%、92.8%、95.5%，而最優(yōu)最差正確率的差值分別為：27.2%、9.1%、19.7%、42.8%、70.1%。綜合可以看出，對比4組監(jiān)督學習，本文提出的方法在最優(yōu)診斷和最優(yōu)最差差值上均處于中間水平，結合該方法完全無須標記數(shù)據(jù)的特性，表明該方法具有替代監(jiān)督學習算法的潛力，具有明顯優(yōu)勢。

圖7

圖7 與監(jiān)督學習的診斷精度對比

Fig.7 Comparison of diagnosis accuracy with supervised learning

5 結論

本文提出一種基于知識數(shù)據(jù)化表達的制冷空調(diào)系統(tǒng)故障診斷方法，通過將故障特征偏離的先驗知識轉化為數(shù)據(jù)，解決現(xiàn)有監(jiān)督學習算法過度依賴標記數(shù)據(jù)的問題。同時，針對目標系統(tǒng)運行數(shù)據(jù)，提出一種基于基準模型的數(shù)據(jù)偏離特性表征方法，將數(shù)據(jù)的偏離特性提取出來，使之適應于生成數(shù)據(jù)的形式統(tǒng)一，從而適應于生成數(shù)據(jù)訓練的模型。具體結論如下。

(1)提出一種隨機縮放策略用于將知識轉化為數(shù)據(jù)形式并實現(xiàn)信息擴增，其中，提出一種生成數(shù)據(jù)的噪聲添加策略，通過添加不同強度的高斯噪聲實現(xiàn)生成分布和真實分布的拉近。實驗表明，添加噪聲的確會優(yōu)化生成分布和真實分布的距離，且隨著噪聲添加強度的增加，分布距離呈現(xiàn)先變小后變大的趨勢。同時，噪聲添加強度受到故障自身偏離程度的影響，偏離越明顯的故障越應添加高強度噪聲。

(2)從故障診斷實驗驗證可知，添加噪聲可以明顯提升最終診斷精度，且不同噪聲強度對診斷的影響不同，其隨著噪聲添加強度增加，診斷精度呈現(xiàn)先提升后降低的趨勢，其結論與MMD評估結論基本一致。不同噪聲添加強度中，添加/0.15標準正態(tài)分布噪聲數(shù)據(jù)后，診斷的整體精度最佳，最優(yōu)的總體診斷精度可達82.67%，比不添加噪聲的診斷精度高11.64%。

(3)與4組單一嚴重程度數(shù)據(jù)監(jiān)督訓練方法對比，本文提出方法僅比使用Level2數(shù)據(jù)訓練方法的正確率低0.8%，而比其他3組實驗的正確率分別高出2.8%、5.9%、20.3%。在4個嚴重程度分別驗證實驗中可以看出，本文提出方法無論是在最優(yōu)診斷率還是最優(yōu)最差的正確率差值上均處于中間水平。結合本文方法完全無須標記數(shù)據(jù)的特性，其優(yōu)勢明顯。

綜上，本文提出的知識數(shù)據(jù)化表達方法較好地解決了監(jiān)督學習對標記數(shù)據(jù)的依賴，同時保持了較高的診斷精度，在制冷空調(diào)故障診斷領域具有廣闊的應用前景。然而，該方法仍然具有一定不足之處。在方法層面上，利用噪聲添加雖然一定程度上模擬了真實系統(tǒng)的隨機特性，然而熱力系統(tǒng)具有時序特點，隨機性仍然遵循一定時序規(guī)律，因此在隨機信息模擬方面如果可以將真實系統(tǒng)時序性考慮進去，則可以使生成分布與真實分布更加接近；在應用層面上，該方法以典型故障偏離知識為基礎，因而針對微弱、早期、隱性故障的診斷精度不高，主要是由于這類故障征兆不明顯，需要更加復雜的知識作為依據(jù)，后續(xù)研究中應該更加豐富先驗知識的形式，不僅包含定性偏離，還應包含參數(shù)間相互映射關系等信息。在知識獲取層面上，要研究更加多樣的獲取方式，包括數(shù)值仿真系統(tǒng)、實驗系統(tǒng)、理論推導、相似系統(tǒng)知識遷移等多種手段，充分發(fā)揮領域?qū)＜抑R優(yōu)勢，將其作為重要指導依據(jù)。如果可以解決上述問題，則該方法的應用場景將會進一步拓寬。

關鍵字：優(yōu)秀論文

上一篇：基于IDPC-RVM的多模態(tài)間歇過程質(zhì)量變量在線預測
下一篇：精細搜索策略應用于質(zhì)量交換網(wǎng)絡綜合

欄目分類

熱門排行

推薦信息

期刊知識