基于IDPC-RVM的多模態(tài)間歇過程質(zhì)量變量在線預測
間歇過程是現(xiàn)代工業(yè)中的重要生產(chǎn)方式,目前已應用于化工、生物制藥及半導體領域[1-2]。間歇過程質(zhì)量變量的在線預測是實現(xiàn)過程有效監(jiān)控和優(yōu)化控制的關鍵[3-5]。因具有核函數(shù)不受限制、在線預測效率高和泛化能力強的優(yōu)點,相關向量機(relevance vector machine,RVM)被廣泛用于間歇過程的質(zhì)量變量在線預測[6-7]。然而,受頻繁操作條件變化和物料更替的影響,間歇過程包含了多個不同的運行模態(tài)。而現(xiàn)有方法普遍將間歇過程視為一個整體建立單一預測模型,忽略了過程的多模態(tài)特性,使得過程模型難以體現(xiàn)各模態(tài)的不同數(shù)據(jù)特征,降低了模型的預測性能[8]。因此,對間歇過程進行合理的模態(tài)劃分,并分別建立各個模態(tài)的預測模型,有利于提升間歇過程質(zhì)量變量的在線預測精度,對保證產(chǎn)品質(zhì)量與生產(chǎn)過程安全具有重要意義[9-11]。
現(xiàn)有間歇過程模態(tài)劃分方法可分為基于模型識別和基于聚類分析兩類[12]?;谀P妥R別的模態(tài)劃分方法通過建立統(tǒng)計分析模型提取過程變量的特征信息實現(xiàn)模態(tài)劃分。Dong等[13]通過MPCA(multi-way principal component analysis)提取每個采樣時刻的變量相關性,并對整個批次進行建模用于間歇過程模態(tài)劃分;Ye等[14]根據(jù)每個采樣時間的特征變化,通過設計控制界限識別不同的模態(tài);Zhao等[15]考慮局部時間域內(nèi)的相似性,采用依次添加時間片數(shù)據(jù)的建模方式提出了逐步時序模態(tài)劃分算法,并在之后的研究中得到了推廣和改進[16-19]。然而,上述基于模型識別的模態(tài)劃分方法通過PCA(principal component analysis)算法獲得時間片數(shù)據(jù)模型,需要數(shù)據(jù)服從高斯分布,而間歇過程數(shù)據(jù)的非高斯特征降低了該類方法模態(tài)劃分的有效性。
聚類分析方法對過程數(shù)據(jù)沒有高斯分布的要求,在間歇過程的模態(tài)劃分問題中得到了廣泛的研究和應用。Lu等[20]對間歇過程數(shù)據(jù)的加載矩陣進行KM(k-means)聚類用于確定三水箱系統(tǒng)的不同模態(tài);張雷等[21]利用模糊最大似然估計聚類算法實現(xiàn)了間歇過程的模態(tài)劃分。然而,上述方法忽略了間歇過程數(shù)據(jù)的時序特征,導致模態(tài)劃分結(jié)果不滿足時序約束的要求。為保證模態(tài)劃分的時序性,Luo等[22]基于WKM(warped k-means)聚類算法,通過在KM方法中加入時序約束來處理間歇過程模態(tài)劃分中的時序問題,提高了模態(tài)劃分的合理性,但兩種方法均只能將間歇過程劃分為不同的穩(wěn)定模態(tài)。間歇過程從一個模態(tài)運行到另一個模態(tài)是一種動態(tài)轉(zhuǎn)移行為,具有過渡特性。Luo等[23-24]通過在FCM(fuzzy c-means)算法中增加時序約束條件而提出了SCFCM(sequence-constrained fuzzy c-means)算法,在滿足時序性的同時實現(xiàn)了過渡模態(tài)劃分;劉偉旻等[25]結(jié)合SCFCM模態(tài)劃分方法,實現(xiàn)了多模態(tài)間歇過程的過程監(jiān)控。然而,這些方法在模態(tài)劃分時需要初始聚類中心作為算法的輸入?yún)?shù),不利于間歇過程的模態(tài)劃分。密度峰值聚類(density peaks clustering,DPC)算法[26]通過計算數(shù)據(jù)樣本的局部密度和相對距離構建決策圖確定聚類中心,但對于類簇間樣本密度不平衡的間歇過程模態(tài)劃分問題,同樣難以從決策圖中選取恰當?shù)哪B(tài)中心[27-29],且上述方法在模態(tài)劃分時以歐氏距離度量數(shù)據(jù)樣本間的相似性,未考慮過程數(shù)據(jù)高維特征的影響。因此,過程數(shù)據(jù)高維特征及模態(tài)中心選取問題影響了現(xiàn)有模態(tài)劃分方法的有效性,降低了多模態(tài)模型的質(zhì)量變量預測精度。
本文提出了一種基于IDPC-RVM的多模態(tài)間歇過程質(zhì)量變量在線預測方法。首先,充分考慮過程數(shù)據(jù)的高維特征,進行數(shù)據(jù)樣本間的相似性度量;其次,構建樣本密度不平衡下的模態(tài)中心選取策略,準確獲取間歇過程的模態(tài)中心,并根據(jù)模態(tài)劃分指標確定最優(yōu)模態(tài)數(shù)目;然后,依據(jù)相鄰模態(tài)切換過程中的樣本隸屬度變化,識別過渡模態(tài)實現(xiàn)間歇過程的模態(tài)劃分;在此基礎上,分別建立各模態(tài)數(shù)據(jù)的RVM預測模型,實現(xiàn)間歇過程質(zhì)量變量的在線預測。最后,通過青霉素發(fā)酵過程的仿真實驗驗證所提方法的有效性。
1 改進密度峰值聚類的間歇過程模態(tài)劃分
1.1 改進的密度峰值聚類
DPC對每個數(shù)據(jù)點計算兩個特征量:局部密度
式中,dij 為數(shù)據(jù)點i和j之間的歐氏距離;dc表示截斷距離。
當
1.1.1 高維數(shù)據(jù)樣本相似性度量
DPC使用歐氏距離度量數(shù)據(jù)樣本間的相似性,當數(shù)據(jù)樣本處于低維時,歐氏距離具有較高的計算效率和準確度,但隨著數(shù)據(jù)維度的增加,導致歐氏距離度量數(shù)據(jù)樣本間相似性的準確度降低??紤]間歇過程的高維數(shù)據(jù)特征,引入Close函數(shù)[30]度量數(shù)據(jù)樣本間的相似性,具有d個維度的兩個數(shù)據(jù)樣本 x1和 x2之間的相似性為
當 x1和 x2在同一維度上的
式中,?為一個很小的數(shù)。計算得到的dist函數(shù)值大于等于0,值越大表示兩個數(shù)據(jù)樣本間距離越遠。
1.1.2 密度不平衡下的樣本得分計算
多模態(tài)間歇過程由于其運行狀態(tài)的復雜性,在過程動態(tài)特性較強或模態(tài)切換比較頻繁的區(qū)域?qū)獢?shù)據(jù)樣本的局部密度較低,而當間歇過程運行狀態(tài)穩(wěn)定或運行模態(tài)總體不再發(fā)生變化時,該區(qū)域內(nèi)對應數(shù)據(jù)樣本具有較高的局部密度。因此,運行狀態(tài)復雜的多模態(tài)間歇過程存在數(shù)據(jù)樣本間密度不平衡的問題。
DPC通過構造決策圖的方式選取聚類中心,但該方式引入了人為的主觀性。由
如圖1所示,具有兩個密度相差較大的類簇1和類簇2。高密度的類簇1其聚類中心為點p1,具有最高的局部密度及γ得分,次高的局部密度點為點p2。樣本密度較低的類簇2,其聚類中心為點p3,由于類簇1的樣本密度遠大于類簇2,使得點p2的γ得分高于點p3。因此,在已知兩類數(shù)據(jù)分布的情況下,選取γ值較大點p1和點p2作為聚類中心將導致錯誤的聚類結(jié)果。
圖1
圖1 樣本密度不平衡的類簇分布
Fig.1 Clusters distribution with unbalanced sample density
為避免高密度區(qū)域非聚類中心點對低密度區(qū)域聚類中心點選取帶來的干擾,本文利用每個數(shù)據(jù)點的
式中,
1.2 改進DPC的間歇過程模態(tài)劃分
針對過程數(shù)據(jù)樣本密度不平衡的多模態(tài)間歇過程,結(jié)合提出的樣本得分計算方式,構建了間歇過程模態(tài)中心自動選取策略。對間歇過程批次數(shù)據(jù)樣本計算
(1)對向量
(2)利用該值之前的所有數(shù)據(jù)進行線性擬合并對該值進行預測。預測公式為
式中,a和b為線性擬合參數(shù);
(3)絕對差值
式中,
重復上述步驟,第一個不滿足該條件的點即為拐點,記拐點索引為xP。根據(jù)索引xP,對向量
式中, xk 為跨模態(tài)分配的點,其采樣時刻為k; vc 為該數(shù)據(jù)點前后的模態(tài)中心,其采樣時刻為c;dist( xk, vc )為 xk 與 vc 之間的距離。
xk 將被重新分配于L值更大的模態(tài)。至此,間歇過程數(shù)據(jù)在不同數(shù)目下的模態(tài)劃分完成,并且結(jié)果保證了模態(tài)劃分的時序性。為了獲得間歇過程的最優(yōu)模態(tài)數(shù)目,定義模態(tài)劃分函數(shù)為
式中, Cr 為第i批次的第r個模態(tài);dist( x, vr )為 Cr 的模態(tài)中心 vr 與樣本 x 之間的距離。由模態(tài)劃分函數(shù)P得到函數(shù)值集合
最優(yōu)模態(tài)數(shù)目
基于最優(yōu)模態(tài)數(shù)目的劃分結(jié)果,需要對相鄰穩(wěn)定模態(tài)間的過渡模態(tài)進行識別。具有
式中, vr 為模態(tài)r的中心; Ck 為該數(shù)據(jù)點與 vr 之間的所有數(shù)據(jù)點組成的集合且集合中數(shù)據(jù)點數(shù)目為nk。
由
圖2
圖2 改進DPC的間歇過程模態(tài)劃分流程圖
Fig.2 Mode partitioning flowchart of batch processes for improved DPC
(1)對間歇過程三維歷史數(shù)據(jù)集
(2)由
(3)計算數(shù)據(jù)樣本的
(4)將每批次間歇過程數(shù)據(jù)分別按模態(tài)數(shù)目為1至F進行劃分;
(5)利用不同模態(tài)數(shù)目下的劃分結(jié)果由式(11)~
(6)基于
(7)間歇過程模態(tài)劃分完成。
2 基于IDPC-RVM的多模態(tài)間歇過程質(zhì)量變量在線預測
2.1 RVM預測建模
以IDPC模態(tài)劃分結(jié)果為基礎,分別對間歇過程各模態(tài)數(shù)據(jù)集建立RVM預測模型,RVM對于輸入 x 和輸出y之間的關系可描述為
式中,
權重向量 w 通過最大似然估計獲得,RVM對每個權重引入超參數(shù)
后驗協(xié)方差
式中,
超參數(shù)
式中,
2.2 基于IDPC-RVM的多模態(tài)間歇過程質(zhì)量變量在線預測
對于在線樣本的待測變量 xnew,根據(jù)樣本采樣時間確定樣本所屬模態(tài)r,將其標準化后得
基于IDPC-RVM的多模態(tài)間歇過程質(zhì)量變量在線預測流程如圖3所示,其算法步驟如下。
圖3
圖3 基于IDPC-RVM的多模態(tài)間歇過程質(zhì)量變量在線預測流程圖
Fig.3 Flow chart of online prediction of quality variables in multimode batch processes based on IDPC-RVM
(1)根據(jù)IDPC模態(tài)劃分結(jié)果建立各模態(tài)數(shù)據(jù)集;
(2)對各模態(tài)數(shù)據(jù)集進行標準化并建立RVM預測模型;
(3)對于每個在線樣本,根據(jù)樣本采樣時間確定所屬模態(tài)r;
(4)利用第r個模態(tài)數(shù)據(jù)的均值和標準差對在線樣本進行標準化;
(5)標準化后的樣本由
3 實驗結(jié)果與討論
以青霉素發(fā)酵過程為研究對象,通過對比不同模態(tài)劃分方法下RVM模型的青霉素濃度在線預測性能,驗證所提方法的有效性。其中,采用如
式中,
3.1 青霉素發(fā)酵過程
青霉素發(fā)酵過程是一個典型的多模態(tài)間歇過程,利用Pensim V2.0仿真平臺[31],在不同初始條件和高斯白噪聲下生成35批次數(shù)據(jù)。其中25批次作為訓練集用于間歇過程模態(tài)劃分,其余10個批次作為測試集用于測試不同模態(tài)劃分結(jié)果下多模態(tài)預測模型性能。每批次采樣時間為400 h,采樣間隔為1 h。因此,模態(tài)劃分數(shù)據(jù)集為
表1 青霉素發(fā)酵過程變量
Table 1
過程變量 | 單位 | 過程變量 | 單位 |
---|---|---|---|
通風率 | L/h | 二氧化碳濃度 | mmol/L |
攪拌功率 | W | pH | |
底物流加速率 | L/h | 反應器溫度 | K |
底物流溫度 | K | 產(chǎn)熱量 | kcal/h |
底物濃度 | g/L | 加酸流速 | ml/h |
溶解氧濃度 | mol/L | 加堿流速 | ml/h |
生物質(zhì)濃度 | g/L | 加冷卻水流速 | L/h |
青霉素濃度 | g/L | 加熱水流速 | L/h |
反應器體積 | L |
新窗口打開| 下載CSV
3.2 改進DPC的模態(tài)劃分
對標準化后的青霉素發(fā)酵過程數(shù)據(jù)計算
圖4
圖4 青霉素發(fā)酵過程樣本密度
Fig.4 Sample density of penicillin fermentation process
圖5
圖5 決策圖
Fig.5 Decision graph
對圖5中低密度區(qū)域內(nèi)的A點和高密度區(qū)域內(nèi)的B點進行分析,點A和B在決策圖中的坐標分別為(0.1696,0.1649),(0.9064,0.0499),可得A和B對應樣本點的γ得分為0.0280和0.0452。依據(jù)密度峰值聚類算法對決策圖中聚類中心點的選取原則,相較于點B,點A與其他數(shù)據(jù)點的偏離更大,其被選為模態(tài)中心的優(yōu)先級應高于點B,然而,此時點A對應數(shù)據(jù)樣本的γ得分卻低于點B對應數(shù)據(jù)樣本的γ得分,造成了模態(tài)中心的錯誤選取。利用本文提出的
按
圖6
圖6 批次3在不同模態(tài)數(shù)目下的劃分結(jié)果
Fig.6 Partitioning results of batch 3 with different number of modes
圖7
圖7 最優(yōu)模態(tài)數(shù)目判別
Fig.7 Discrimination of the optimal number of modes
設定模態(tài)數(shù)目為4,對比不同方法下獲得的穩(wěn)定模態(tài)(steady mode,SM),如圖8所示。從圖中可知,SCFCM算法雖然獲得了較好的模態(tài)劃分結(jié)果,但該算法需要人為輸入模態(tài)數(shù)目用于尋找初始模態(tài)中心,不同的初始模態(tài)中心會產(chǎn)生不同的模態(tài)劃分結(jié)果;DPC方法在選取模態(tài)中心時錯誤地將高密度區(qū)域的非模態(tài)中心點選為了模態(tài)中心,導致錯誤地將發(fā)酵過程后期分為了兩個模態(tài),并且在所識別到的第2個模態(tài)中有大量樣本被錯誤分配到了第4個模態(tài),即模態(tài)劃分結(jié)果不滿足時序約束的要求;本文方法在進行模態(tài)劃分時考慮過程數(shù)據(jù)的高維特征,通過合理的模態(tài)中心選取以及對剩余樣本進行時序的模態(tài)分配,獲得了較好的模態(tài)劃分結(jié)果。
圖8
圖8 不同方法的穩(wěn)定模態(tài)
Fig.8 Steady modes with different methods
對最優(yōu)模態(tài)數(shù)目
表2 不同方法的最終模態(tài)劃分結(jié)果
Table 2
方法 | SM #1 | TM #1 | SM #2 | TM #2 | SM #3 | TM #3 | SM #4 |
---|---|---|---|---|---|---|---|
SCFCM | 1~38 | 39~48 | 49~93 | 94~110 | 111~146 | 147~226 | 227~400 |
DPC | 1~40 | — | 41~283 | — | 284~343 | — | 344~400 |
IDPC | 1~28 | 29~49 | 50~98 | 99~117 | 118~177 | 178~199 | 200~400 |
新窗口打開| 下載CSV
3.3 青霉素發(fā)酵過程質(zhì)量變量在線預測
根據(jù)表2不同方法下的模態(tài)劃分結(jié)果,分別建立RVM、SCFCM-RVM、DPC-RVM以及IDPC-RVM的多模態(tài)預測模型對10個測試批次的青霉素濃度進行在線預測。
圖9中青霉素濃度的預測值和實際值的變化圖表明本文方法的預測值更接近于實際值,其中未考慮模態(tài)因素的RVM預測模型對青霉素濃度的預測在整個發(fā)酵過程中與實際值均有較大的偏離。圖10為測試批次1在各采樣點處的預測誤差,可以看出本文方法的預測誤差始終在0附近具有很小的波動,表明本文方法對青霉素濃度具有很好的預測和跟蹤性能。從圖11可以看出,相較于RVM、SCFCM-RVM和DPC-RVM方法,本文方法對10個測試批次均具有最低的預測誤差,且對不同批次的預測誤差波動較小,具有較好的穩(wěn)定性。如表3所示,本文方法對青霉素濃度預測的R2提升至0.9995,RMSE比RVM、SCFCM-RVM和DPC-RVM方法分別降低了84.3%、44.3%和75.7%,有效地提升了青霉素濃度的預測精度。
圖9
圖9 測試批次1在不同方法下的預測結(jié)果
Fig.9 Prediction results of test batch 1 with different methods
圖10
圖10 測試批次1各采樣點處的預測誤差
Fig.10 Prediction error at each sampling point in test batch 1
圖11
圖11 不同批次的RMSE
Fig.11 RMSE of different batches
表3 不同方法下的平均RMSE和平均R2
Table 3
方法 | 平均RMSE | 平均R2 |
---|---|---|
RVM | 0.0592 | 0.9815 |
SCFCM-RVM | 0.0167 | 0.9986 |
DPC-RVM | 0.0382 | 0.9924 |
IDPC-RVM | 0.0093 | 0.9995 |
新窗口打開| 下載CSV
實驗結(jié)果表明,基于單模型的預測方法對青霉素濃度的預測結(jié)果遠不如基于多模型的預測方法。SCFCM-RVM方法和DPC-RVM方法雖然比單模型的預測方法具有更好的預測結(jié)果,但兩種方法在模態(tài)劃分時采用歐氏距離度量數(shù)據(jù)樣本間的相似性,均未考慮過程數(shù)據(jù)的高維特征;在選取模態(tài)中心時,相較于SCFCM方法,DPC方法雖然能夠獲得數(shù)據(jù)樣本的密度峰值點,但其低密度區(qū)域模態(tài)中心選取易受高密度區(qū)域非模態(tài)中心點干擾產(chǎn)生不合理的模態(tài)劃分結(jié)果,導致其預測誤差較大,且對不同批次的預測結(jié)果具有較大的波動。與這些方法相比,本文方法考慮了過程數(shù)據(jù)的高維特征,且能夠獲取合理的模態(tài)中心,有效實現(xiàn)了青霉素發(fā)酵過程的模態(tài)劃分,提高了青霉素濃度的在線預測精度。
4 結(jié)論
間歇過程數(shù)據(jù)的高維特征和模態(tài)中心選取影響模態(tài)劃分結(jié)果的合理性,導致間歇過程質(zhì)量變量在線預測精度較低。本文提出了一種基于IDPC-RVM的多模態(tài)間歇過程質(zhì)量變量在線預測方法。該方法所構建的樣本距離計算函數(shù),充分考慮了過程數(shù)據(jù)高維特征對樣本相似性度量的影響,其結(jié)果更有利于間歇過程的模態(tài)劃分;在樣本密度不平衡情況下,結(jié)合提出的樣本得分計算方式,所構建的模態(tài)中心選取策略能夠克服高密度區(qū)域非模態(tài)中心點的干擾,準確獲取間歇過程的模態(tài)中心,避免了不合理的模態(tài)劃分結(jié)果,從而提高了多模態(tài)模型的預測精度。青霉素發(fā)酵過程的實驗結(jié)果表明,相較于SCFCM-RVM方法和DPC-RVM方法,本文方法實現(xiàn)了合理的模態(tài)劃分,建立的多模態(tài)模型進一步提升了青霉素濃度的在線預測精度。
- 2025年中科院分區(qū)表已公布!Scientific Reports降至三區(qū)
- 官方認定!CSSCI南大核心首批191家“青年學者友好期刊名單”
- 2023JCR影響因子正式公布!
- 國內(nèi)核心期刊分級情況概覽及說明!本篇適用人群:需要發(fā)南核、北核、CSCD、科核、AMI、SCD、RCCSE期刊的學者
- 我用了一個很復雜的圖,幫你們解釋下“23版最新北大核心目錄有效期問題”。
- 重磅!CSSCI來源期刊(2023-2024版)最新期刊目錄看點分析!全網(wǎng)首發(fā)!
- CSSCI官方早就公布了最新南核目錄,有心的人已經(jīng)拿到并且投入使用!附南核目錄新增期刊!
- 北大核心期刊目錄換屆,我們應該熟知的10個知識點。
- 注意,最新期刊論文格式標準已發(fā)布,論文寫作規(guī)則發(fā)生重大變化!文字版GB/T 7713.2—2022 學術論文編寫規(guī)則
- 盤點那些評職稱超管用的資源,1,3和5已經(jīng)“絕種”了