優(yōu)勝從選擇開始,我們是您最好的選擇!—— 中州期刊聯(lián)盟(新鄉(xiāng)市博翰文化傳媒有限公司)
0373-5939925
2851259250@qq.com
我要檢測 我要投稿 合法期刊查詢

基于IDPC-RVM的多模態(tài)間歇過程質(zhì)量變量在線預測

作者:周新杰 王建林 艾興聰 隨恩光 王汝童來源:《化工學報》日期:2022-11-03人氣:987

間歇過程是現(xiàn)代工業(yè)中的重要生產(chǎn)方式,目前已應用于化工、生物制藥及半導體領域[1-2]。間歇過程質(zhì)量變量的在線預測是實現(xiàn)過程有效監(jiān)控和優(yōu)化控制的關鍵[3-5]。因具有核函數(shù)不受限制、在線預測效率高和泛化能力強的優(yōu)點,相關向量機(relevance vector machine,RVM)被廣泛用于間歇過程的質(zhì)量變量在線預測[6-7]。然而,受頻繁操作條件變化和物料更替的影響,間歇過程包含了多個不同的運行模態(tài)。而現(xiàn)有方法普遍將間歇過程視為一個整體建立單一預測模型,忽略了過程的多模態(tài)特性,使得過程模型難以體現(xiàn)各模態(tài)的不同數(shù)據(jù)特征,降低了模型的預測性能[8]。因此,對間歇過程進行合理的模態(tài)劃分,并分別建立各個模態(tài)的預測模型,有利于提升間歇過程質(zhì)量變量的在線預測精度,對保證產(chǎn)品質(zhì)量與生產(chǎn)過程安全具有重要意義[9-11]。

現(xiàn)有間歇過程模態(tài)劃分方法可分為基于模型識別和基于聚類分析兩類[12]?;谀P妥R別的模態(tài)劃分方法通過建立統(tǒng)計分析模型提取過程變量的特征信息實現(xiàn)模態(tài)劃分。Dong等[13]通過MPCA(multi-way principal component analysis)提取每個采樣時刻的變量相關性,并對整個批次進行建模用于間歇過程模態(tài)劃分;Ye等[14]根據(jù)每個采樣時間的特征變化,通過設計控制界限識別不同的模態(tài);Zhao等[15]考慮局部時間域內(nèi)的相似性,采用依次添加時間片數(shù)據(jù)的建模方式提出了逐步時序模態(tài)劃分算法,并在之后的研究中得到了推廣和改進[16-19]。然而,上述基于模型識別的模態(tài)劃分方法通過PCA(principal component analysis)算法獲得時間片數(shù)據(jù)模型,需要數(shù)據(jù)服從高斯分布,而間歇過程數(shù)據(jù)的非高斯特征降低了該類方法模態(tài)劃分的有效性。

聚類分析方法對過程數(shù)據(jù)沒有高斯分布的要求,在間歇過程的模態(tài)劃分問題中得到了廣泛的研究和應用。Lu等[20]對間歇過程數(shù)據(jù)的加載矩陣進行KM(k-means)聚類用于確定三水箱系統(tǒng)的不同模態(tài);張雷等[21]利用模糊最大似然估計聚類算法實現(xiàn)了間歇過程的模態(tài)劃分。然而,上述方法忽略了間歇過程數(shù)據(jù)的時序特征,導致模態(tài)劃分結(jié)果不滿足時序約束的要求。為保證模態(tài)劃分的時序性,Luo等[22]基于WKM(warped k-means)聚類算法,通過在KM方法中加入時序約束來處理間歇過程模態(tài)劃分中的時序問題,提高了模態(tài)劃分的合理性,但兩種方法均只能將間歇過程劃分為不同的穩(wěn)定模態(tài)。間歇過程從一個模態(tài)運行到另一個模態(tài)是一種動態(tài)轉(zhuǎn)移行為,具有過渡特性。Luo等[23-24]通過在FCM(fuzzy c-means)算法中增加時序約束條件而提出了SCFCM(sequence-constrained fuzzy c-means)算法,在滿足時序性的同時實現(xiàn)了過渡模態(tài)劃分;劉偉旻等[25]結(jié)合SCFCM模態(tài)劃分方法,實現(xiàn)了多模態(tài)間歇過程的過程監(jiān)控。然而,這些方法在模態(tài)劃分時需要初始聚類中心作為算法的輸入?yún)?shù),不利于間歇過程的模態(tài)劃分。密度峰值聚類(density peaks clustering,DPC)算法[26]通過計算數(shù)據(jù)樣本的局部密度和相對距離構建決策圖確定聚類中心,但對于類簇間樣本密度不平衡的間歇過程模態(tài)劃分問題,同樣難以從決策圖中選取恰當?shù)哪B(tài)中心[27-29],且上述方法在模態(tài)劃分時以歐氏距離度量數(shù)據(jù)樣本間的相似性,未考慮過程數(shù)據(jù)高維特征的影響。因此,過程數(shù)據(jù)高維特征及模態(tài)中心選取問題影響了現(xiàn)有模態(tài)劃分方法的有效性,降低了多模態(tài)模型的質(zhì)量變量預測精度。

本文提出了一種基于IDPC-RVM的多模態(tài)間歇過程質(zhì)量變量在線預測方法。首先,充分考慮過程數(shù)據(jù)的高維特征,進行數(shù)據(jù)樣本間的相似性度量;其次,構建樣本密度不平衡下的模態(tài)中心選取策略,準確獲取間歇過程的模態(tài)中心,并根據(jù)模態(tài)劃分指標確定最優(yōu)模態(tài)數(shù)目;然后,依據(jù)相鄰模態(tài)切換過程中的樣本隸屬度變化,識別過渡模態(tài)實現(xiàn)間歇過程的模態(tài)劃分;在此基礎上,分別建立各模態(tài)數(shù)據(jù)的RVM預測模型,實現(xiàn)間歇過程質(zhì)量變量的在線預測。最后,通過青霉素發(fā)酵過程的仿真實驗驗證所提方法的有效性。

1 改進密度峰值聚類的間歇過程模態(tài)劃分

1.1 改進的密度峰值聚類

DPC對每個數(shù)據(jù)點計算兩個特征量:局部密度ρ和相對距離δ[26]。數(shù)據(jù)樣本xi的局部密度ρi定義為

ρi=jiχdij-dc, χx=1, x<00, x0(1)

式中,dij 為數(shù)據(jù)點ij之間的歐氏距離;dc表示截斷距離。

式(1)中局部密度ρi表示數(shù)據(jù)點xi與其距離小于截斷距離dc的數(shù)據(jù)點數(shù)目,在該點的截斷距離內(nèi)數(shù)據(jù)點分布越多,則局部密度越大。根據(jù)計算得到的局部密度,xi的相對距離δi可表示為

δi=minj: ρj>ρidijρimaxρ1,ρ2,,ρnmaxjdijρi= maxρ1,ρ2,,ρn(2)

xi不是全局密度最大值點時,δi為該點到任何比其密度大的點之間的最短距離;而當xi為全局密度最大值點時,δi為該點與其他點間的最遠距離。由式(1)和式(2)可以計算出所有樣本的ρδ兩個參數(shù),然后以局部密度ρ為橫軸,相對距離δ為縱軸構建決策圖。在決策圖分布中,與其他數(shù)據(jù)點偏離較大的點被選為聚類中心。最后,剩余的數(shù)據(jù)點將會被分配到密度更高、距離最近的點所屬類簇中。

1.1.1 高維數(shù)據(jù)樣本相似性度量

DPC使用歐氏距離度量數(shù)據(jù)樣本間的相似性,當數(shù)據(jù)樣本處于低維時,歐氏距離具有較高的計算效率和準確度,但隨著數(shù)據(jù)維度的增加,導致歐氏距離度量數(shù)據(jù)樣本間相似性的準確度降低??紤]間歇過程的高維數(shù)據(jù)特征,引入Close函數(shù)[30]度量數(shù)據(jù)樣本間的相似性,具有d個維度的兩個數(shù)據(jù)樣本 x1和 x2之間的相似性為

Closex1,x2=j=1de-|x1j-x2j|d(3)

當 x1和 x2在同一維度上的x1j-x2j越小,則 x1和 x2的相似性越高,克服了歐氏距離度量高維數(shù)據(jù)樣本間相似性的缺點,提高了高維數(shù)據(jù)樣本間相似性度量的準確度。為了將數(shù)據(jù)樣本間的相似性信息轉(zhuǎn)換為距離矩陣,對Close函數(shù)進行變換得到間歇過程高維數(shù)據(jù)樣本距離計算函數(shù)dist為

distx1,x2=1Closex1,x2+?-1(4)

式中,?為一個很小的數(shù)。計算得到的dist函數(shù)值大于等于0,值越大表示兩個數(shù)據(jù)樣本間距離越遠。

1.1.2 密度不平衡下的樣本得分計算

多模態(tài)間歇過程由于其運行狀態(tài)的復雜性,在過程動態(tài)特性較強或模態(tài)切換比較頻繁的區(qū)域?qū)獢?shù)據(jù)樣本的局部密度較低,而當間歇過程運行狀態(tài)穩(wěn)定或運行模態(tài)總體不再發(fā)生變化時,該區(qū)域內(nèi)對應數(shù)據(jù)樣本具有較高的局部密度。因此,運行狀態(tài)復雜的多模態(tài)間歇過程存在數(shù)據(jù)樣本間密度不平衡的問題。

DPC通過構造決策圖的方式選取聚類中心,但該方式引入了人為的主觀性。由式(5)計算每個樣本的γ得分,再根據(jù)得分向量進行聚類中心的選取,然而這種計算方式在類簇間樣本密度不平衡時會錯誤選取聚類中心,導致錯誤的聚類結(jié)果。

γi=ρi δi(5)

如圖1所示,具有兩個密度相差較大的類簇1和類簇2。高密度的類簇1其聚類中心為點p1,具有最高的局部密度及γ得分,次高的局部密度點為點p2。樣本密度較低的類簇2,其聚類中心為點p3,由于類簇1的樣本密度遠大于類簇2,使得點p2的γ得分高于點p3。因此,在已知兩類數(shù)據(jù)分布的情況下,選取γ值較大點p1和點p2作為聚類中心將導致錯誤的聚類結(jié)果。

圖1

圖1   樣本密度不平衡的類簇分布

Fig.1   Clusters distribution with unbalanced sample density


為避免高密度區(qū)域非聚類中心點對低密度區(qū)域聚類中心點選取帶來的干擾,本文利用每個數(shù)據(jù)點的ρδ組成新的數(shù)據(jù)樣本ti=ρi,δi,對新的數(shù)據(jù)樣本計算每個樣本 ti 與樣本均值tˉ間的馬氏平方距離,θi得分為

θi=ti-tˉΣ-1ti-tˉT(6)

式中,Σ為協(xié)方差矩陣。式(6)綜合考慮了決策圖中數(shù)據(jù)點間的偏離程度作為θ得分,與γ得分相比削弱了樣本密度偏差對分值計算的影響,θ值越大,表示該點在決策圖中的分布與常規(guī)數(shù)據(jù)點偏離程度越大,對應的數(shù)據(jù)樣本越有可能選為聚類中心。

1.2 改進DPC的間歇過程模態(tài)劃分

針對過程數(shù)據(jù)樣本密度不平衡的多模態(tài)間歇過程,結(jié)合提出的樣本得分計算方式,構建了間歇過程模態(tài)中心自動選取策略。對間歇過程批次數(shù)據(jù)樣本計算θ得分,獲得得分向量θθ的長度與批次數(shù)據(jù)的采樣數(shù)K相同,具有I個批次的間歇過程歷史數(shù)據(jù)集得到得分矩陣ΘI×K,對矩陣Θ按批次方向求均值后進行升序排序,再計算排序后得分向量的差分向量θ?,按如下方法從θ?中找出拐點Pc。

(1)對向量θ?從后往前依次取一個值記為θ?x,相應的索引為x。

(2)利用該值之前的所有數(shù)據(jù)進行線性擬合并對該值進行預測。預測公式為

θ??x=ax+b(7)

式中,ab為線性擬合參數(shù);θ??xθ?x的預測值。然后計算真值θ?x與預測值θ??x之間的絕對差值Δ

Δ=|θ?x-θ??x|(8)

(3)絕對差值Δ會越來越小,而真值θ?x始終大于等于0。因此,真值與絕對差值的比值將逐漸增大,利用式(9)對拐點Pc進行判斷。

θ?xΔτ(9)

式中,τ為設定的閾值。

重復上述步驟,第一個不滿足該條件的點即為拐點,記拐點索引為xP。根據(jù)索引xP,對向量θ進行升序排序,位于xP 之后的數(shù)據(jù)點即為模態(tài)中心。由上述模態(tài)中心選取策略可以獲得每個批次的F個模態(tài)中心,將各批次數(shù)據(jù)分別按模態(tài)數(shù)目為1到F進行劃分,并記模態(tài)數(shù)目集合F=1,2,,F。為保證模態(tài)劃分的時序性,將跨模態(tài)分配的數(shù)據(jù)點按式(10)計算時序約束標簽

L=exp-distxk,vc2s?2 exp-k-c, s?=maxxk(10)

式中, xk 為跨模態(tài)分配的點,其采樣時刻為k; vc 為該數(shù)據(jù)點前后的模態(tài)中心,其采樣時刻為c;dist( xkvc )為 xk 與 vc 之間的距離。

xk 將被重新分配于L值更大的模態(tài)。至此,間歇過程數(shù)據(jù)在不同數(shù)目下的模態(tài)劃分完成,并且結(jié)果保證了模態(tài)劃分的時序性。為了獲得間歇過程的最優(yōu)模態(tài)數(shù)目,定義模態(tài)劃分函數(shù)為

Pf=lnr=1fi=1IxCrdistx,vr2, 1fF(11)

式中, Cr 為第i批次的第r個模態(tài);dist( xvr )為 Cr 的模態(tài)中心 vr 與樣本 x 之間的距離。由模態(tài)劃分函數(shù)P得到函數(shù)值集合P=P1,P2,,PF,并定義模態(tài)劃分指標(mode partitioning index,MPI)為

MPIf=Pˉf+Fˉf, 1fF(12)Pˉf=Pf-minPmaxP-minP(13)Fˉf=Ff-minFmaxF-minF(14)

最優(yōu)模態(tài)數(shù)目f*通過最小化MPI來獲得

f*=arg minf MPIf(15)

基于最優(yōu)模態(tài)數(shù)目的劃分結(jié)果,需要對相鄰穩(wěn)定模態(tài)間的過渡模態(tài)進行識別。具有f*個穩(wěn)定模態(tài),需要進行f*-1次過渡模態(tài)識別,設每兩個相鄰穩(wěn)定模態(tài)中心之間的區(qū)域為過渡區(qū)域,第r個模態(tài)過渡區(qū)域內(nèi)的數(shù)據(jù)點為 xrk,則該數(shù)據(jù)點對第r個模態(tài)的隸屬度urk 為

urk=11+1nkxCkdistx,vr2(16)

式中, vr 為模態(tài)r的中心; Ck 為該數(shù)據(jù)點與 vr 之間的所有數(shù)據(jù)點組成的集合且集合中數(shù)據(jù)點數(shù)目為nk

式(16)計算出urk,則該數(shù)據(jù)點對模態(tài)r的相鄰模態(tài)的隸屬度為1-urk,與其余f*-2個模態(tài)的隸屬度均為0。給定閾值搜索范圍,計算不同閾值下模態(tài)劃分結(jié)果的SQE值,選擇使SQE值最小的閾值進行判定,隸屬度小于該閾值的樣本被識別為過渡模態(tài)。改進密度峰值聚類的間歇過程模態(tài)劃分流程如圖2所示,其算法步驟如下。

圖2

圖2   改進DPC的間歇過程模態(tài)劃分流程圖

Fig.2   Mode partitioning flowchart of batch processes for improved DPC


(1)對間歇過程三維歷史數(shù)據(jù)集X=X1,X2,,XI,XiRK×Ji=1,2,,I為批次索引,I、JK分別為批次總數(shù)、變量數(shù)和采樣點數(shù))分批次進行標準化,消除過程數(shù)據(jù)量綱影響;

(2)由式(4)計算間歇過程數(shù)據(jù)樣本間的距離矩陣,再根據(jù)式(1)和式(2)計算標準化后數(shù)據(jù)樣本的ρδ

(3)計算數(shù)據(jù)樣本的θ得分,根據(jù)樣本密度不平衡下的間歇過程模態(tài)中心選取策略獲得每批次數(shù)據(jù)的F個模態(tài)中心;

(4)將每批次間歇過程數(shù)據(jù)分別按模態(tài)數(shù)目為1至F進行劃分;

(5)利用不同模態(tài)數(shù)目下的劃分結(jié)果由式(11)~式(15)計算得到間歇過程的最優(yōu)模態(tài)數(shù)目f*

(6)基于f*下的模態(tài)劃分結(jié)果,對相鄰穩(wěn)定模態(tài)過渡區(qū)域內(nèi)的數(shù)據(jù)樣本按式(16)計算對應前后模態(tài)的隸屬度實現(xiàn)過渡模態(tài)的識別;

(7)間歇過程模態(tài)劃分完成。

2 基于IDPC-RVM的多模態(tài)間歇過程質(zhì)量變量在線預測

2.1 RVM預測建模

以IDPC模態(tài)劃分結(jié)果為基礎,分別對間歇過程各模態(tài)數(shù)據(jù)集建立RVM預測模型,RVM對于輸入 x 和輸出y之間的關系可描述為

y=i=1Nwikx,xi+w0+ε(17)

式中,k(x,xi)為核函數(shù);ε是服從N0,δ2的高斯分布噪聲。

權重向量 w 通過最大似然估計獲得,RVM對每個權重引入超參數(shù)α進行約束,以防止過擬合。由貝葉斯公式, w 的后驗概率分布為

Pw|y,α,σ2=Pyw,σ2Pw|αPyα,σ2=2π-N+1/2Σ-1/2exp-12w-uTΣ-1w-u(18)

后驗協(xié)方差Σ和 w 的均值 u 按式(19)、式(20)計算

Σ=σ-2ΦTΦ+A-1(19)u=σ-2ΣΦTY(20)

式中,Φ=φx1,φx2,,φxNTA=diagα0,α1,,αN。

超參數(shù)α和方差σ2的迭代公式為

αinew=1-αiΣiiui2(21)σ2new=Y-Φu2N-i=1N1-αiΣii(22)

式中,ΣiiΣ的第i個對角元素。測試數(shù)據(jù) xtest的預測輸出y?test和預測方差σ?test2

y?test=uTφ (xtest)(23)σ?test2=σMP2+φ (xtest)TΣφ (xtest)(24)

2.2 基于IDPC-RVM的多模態(tài)間歇過程質(zhì)量變量在線預測

對于在線樣本的待測變量 xnew,根據(jù)樣本采樣時間確定樣本所屬模態(tài)r,將其標準化后得xˉnew,并傳入第r個RVM模型可獲得對應的在線預測值y?new

y?new=RVMrxˉnew(25)

基于IDPC-RVM的多模態(tài)間歇過程質(zhì)量變量在線預測流程如圖3所示,其算法步驟如下。

圖3

圖3   基于IDPC-RVM的多模態(tài)間歇過程質(zhì)量變量在線預測流程圖

Fig.3   Flow chart of online prediction of quality variables in multimode batch processes based on IDPC-RVM


(1)根據(jù)IDPC模態(tài)劃分結(jié)果建立各模態(tài)數(shù)據(jù)集;

(2)對各模態(tài)數(shù)據(jù)集進行標準化并建立RVM預測模型;

(3)對于每個在線樣本,根據(jù)樣本采樣時間確定所屬模態(tài)r;

(4)利用第r個模態(tài)數(shù)據(jù)的均值和標準差對在線樣本進行標準化;

(5)標準化后的樣本由式(25)可獲得對應的在線預測結(jié)果。

3 實驗結(jié)果與討論

以青霉素發(fā)酵過程為研究對象,通過對比不同模態(tài)劃分方法下RVM模型的青霉素濃度在線預測性能,驗證所提方法的有效性。其中,采用如式(26)和式(27)所示的均方根誤差(RMSE)和判定系數(shù)(R2)來評價青霉素濃度的在線預測性能,更低的RMSE和更高的R2代表具有更好的預測結(jié)果,其模型性能越好。

RMSE=k=1Ky?k-yk2/K(26)R2=1-y?k-yk2/k=1Ky?k-yˉ2(27)

式中,y?k為模型預測值;yk為真實值;yˉ為平均值。

3.1 青霉素發(fā)酵過程

青霉素發(fā)酵過程是一個典型的多模態(tài)間歇過程,利用Pensim V2.0仿真平臺[31],在不同初始條件和高斯白噪聲下生成35批次數(shù)據(jù)。其中25批次作為訓練集用于間歇過程模態(tài)劃分,其余10個批次作為測試集用于測試不同模態(tài)劃分結(jié)果下多模態(tài)預測模型性能。每批次采樣時間為400 h,采樣間隔為1 h。因此,模態(tài)劃分數(shù)據(jù)集為Xi400×17,1i25。表1為青霉素發(fā)酵過程變量,選取青霉素濃度作為質(zhì)量變量進行在線預測。

表1   青霉素發(fā)酵過程變量

Table 1  Variables of penicillin fermentation process

過程變量單位過程變量單位
通風率L/h二氧化碳濃度mmol/L
攪拌功率WpH
底物流加速率L/h反應器溫度K
底物流溫度K產(chǎn)熱量kcal/h
底物濃度g/L加酸流速ml/h
溶解氧濃度mol/L加堿流速ml/h
生物質(zhì)濃度g/L加冷卻水流速L/h
青霉素濃度g/L加熱水流速L/h
反應器體積L

注:1 cal=4.184 J。

新窗口打開| 下載CSV


3.2 改進DPC的模態(tài)劃分

對標準化后的青霉素發(fā)酵過程數(shù)據(jù)計算ρδ,圖4和圖5為某批次的ρ和決策圖。由圖4和圖5可知,青霉素發(fā)酵過程在第200 h采樣點前樣本密度較小,在此之后樣本密度逐漸變大,整個過程被分為了密度相差較大的兩個區(qū)域,因此,青霉素發(fā)酵過程存在樣本密度不平衡的問題。

圖4

圖4   青霉素發(fā)酵過程樣本密度

Fig.4   Sample density of penicillin fermentation process


圖5

圖5   決策圖

Fig.5   Decision graph


對圖5中低密度區(qū)域內(nèi)的A點和高密度區(qū)域內(nèi)的B點進行分析,點AB在決策圖中的坐標分別為(0.1696,0.1649),(0.9064,0.0499),可得AB對應樣本點的γ得分為0.0280和0.0452。依據(jù)密度峰值聚類算法對決策圖中聚類中心點的選取原則,相較于點B,點A與其他數(shù)據(jù)點的偏離更大,其被選為模態(tài)中心的優(yōu)先級應高于點B,然而,此時點A對應數(shù)據(jù)樣本的γ得分卻低于點B對應數(shù)據(jù)樣本的γ得分,造成了模態(tài)中心的錯誤選取。利用本文提出的θ得分分別計算點AB對應樣本的得分值為0.0173和0.0093,前者得分大于后者。因此,本文提出的θ得分能夠更客觀地表示每個樣本被選為模態(tài)中心的得分,克服在選取低密度區(qū)域模態(tài)中心時受到高密度區(qū)域非模態(tài)中心點干擾的問題。

式(6)計算所有批次數(shù)據(jù)點的θ得分,最終識別到的拐點索引xp 為393(τ取1.3),因此每批次數(shù)據(jù)排序后的θ值從394至400所對應的樣本被選為模態(tài)中心,所以F=7。以批次3為例,圖6與圖7分別展示了該批次數(shù)據(jù)劃分為2至7個模態(tài)的結(jié)果及不同模態(tài)劃分數(shù)目與模態(tài)劃分函數(shù)P、模態(tài)劃分指標MPI的關系。從圖7(a)可以看出,模態(tài)劃分函數(shù)值隨著模態(tài)數(shù)目的增加逐漸減小,當模態(tài)數(shù)目較大時,模態(tài)劃分函數(shù)值的變化量減慢,結(jié)合圖6的模態(tài)劃分結(jié)果可知此時出現(xiàn)了樣本數(shù)較少的穩(wěn)定模態(tài),不利于質(zhì)量變量預測模型的建立。依據(jù)圖7(b)模態(tài)劃分指標MPI的變化情況可以看出,當模態(tài)數(shù)目為4時對應的MPI值最小,因此最優(yōu)模態(tài)數(shù)目為4,即f*=4。

圖6

圖6   批次3在不同模態(tài)數(shù)目下的劃分結(jié)果

Fig.6   Partitioning results of batch 3 with different number of modes


圖7

圖7   最優(yōu)模態(tài)數(shù)目判別

Fig.7   Discrimination of the optimal number of modes


設定模態(tài)數(shù)目為4,對比不同方法下獲得的穩(wěn)定模態(tài)(steady mode,SM),如圖8所示。從圖中可知,SCFCM算法雖然獲得了較好的模態(tài)劃分結(jié)果,但該算法需要人為輸入模態(tài)數(shù)目用于尋找初始模態(tài)中心,不同的初始模態(tài)中心會產(chǎn)生不同的模態(tài)劃分結(jié)果;DPC方法在選取模態(tài)中心時錯誤地將高密度區(qū)域的非模態(tài)中心點選為了模態(tài)中心,導致錯誤地將發(fā)酵過程后期分為了兩個模態(tài),并且在所識別到的第2個模態(tài)中有大量樣本被錯誤分配到了第4個模態(tài),即模態(tài)劃分結(jié)果不滿足時序約束的要求;本文方法在進行模態(tài)劃分時考慮過程數(shù)據(jù)的高維特征,通過合理的模態(tài)中心選取以及對剩余樣本進行時序的模態(tài)分配,獲得了較好的模態(tài)劃分結(jié)果。

圖8

圖8   不同方法的穩(wěn)定模態(tài)

Fig.8   Steady modes with different methods


對最優(yōu)模態(tài)數(shù)目f*下的劃分結(jié)果進行過渡模態(tài)(transition mode,TM)識別。每批次數(shù)據(jù)具有4個穩(wěn)定模態(tài),因此需要進行3次過渡模態(tài)識別,本文方法下設置的過渡模態(tài)判定閾值的搜索范圍為0.90至0.95,搜索間隔為0.005,最終的模態(tài)劃分結(jié)果如表2所示??梢钥闯?,SCFCM方法在識別過渡模態(tài)時將第3個穩(wěn)定模態(tài)和第4個穩(wěn)定模態(tài)內(nèi)的大量樣本誤識別到了第3個過渡模態(tài);而DPC方法無法進行過渡模態(tài)的識別。

表2   不同方法的最終模態(tài)劃分結(jié)果

Table 2  Final mode partitioning results of different methods

方法SM #1TM #1SM #2TM #2SM #3TM #3SM #4
SCFCM1~3839~4849~9394~110111~146147~226227~400
DPC1~4041~283284~343344~400
IDPC1~2829~4950~9899~117118~177178~199200~400

新窗口打開| 下載CSV


3.3 青霉素發(fā)酵過程質(zhì)量變量在線預測

根據(jù)表2不同方法下的模態(tài)劃分結(jié)果,分別建立RVM、SCFCM-RVM、DPC-RVM以及IDPC-RVM的多模態(tài)預測模型對10個測試批次的青霉素濃度進行在線預測。

圖9中青霉素濃度的預測值和實際值的變化圖表明本文方法的預測值更接近于實際值,其中未考慮模態(tài)因素的RVM預測模型對青霉素濃度的預測在整個發(fā)酵過程中與實際值均有較大的偏離。圖10為測試批次1在各采樣點處的預測誤差,可以看出本文方法的預測誤差始終在0附近具有很小的波動,表明本文方法對青霉素濃度具有很好的預測和跟蹤性能。從圖11可以看出,相較于RVM、SCFCM-RVM和DPC-RVM方法,本文方法對10個測試批次均具有最低的預測誤差,且對不同批次的預測誤差波動較小,具有較好的穩(wěn)定性。如表3所示,本文方法對青霉素濃度預測的R2提升至0.9995,RMSE比RVM、SCFCM-RVM和DPC-RVM方法分別降低了84.3%、44.3%和75.7%,有效地提升了青霉素濃度的預測精度。

圖9

圖9   測試批次1在不同方法下的預測結(jié)果

Fig.9   Prediction results of test batch 1 with different methods


圖10

圖10   測試批次1各采樣點處的預測誤差

Fig.10   Prediction error at each sampling point in test batch 1


圖11

圖11   不同批次的RMSE

Fig.11   RMSE of different batches


表3   不同方法下的平均RMSE和平均R2

Table 3  Mean RMSE and mean R2 of different methods

方法平均RMSE平均R2
RVM0.05920.9815
SCFCM-RVM0.01670.9986
DPC-RVM0.03820.9924
IDPC-RVM0.00930.9995

新窗口打開| 下載CSV


實驗結(jié)果表明,基于單模型的預測方法對青霉素濃度的預測結(jié)果遠不如基于多模型的預測方法。SCFCM-RVM方法和DPC-RVM方法雖然比單模型的預測方法具有更好的預測結(jié)果,但兩種方法在模態(tài)劃分時采用歐氏距離度量數(shù)據(jù)樣本間的相似性,均未考慮過程數(shù)據(jù)的高維特征;在選取模態(tài)中心時,相較于SCFCM方法,DPC方法雖然能夠獲得數(shù)據(jù)樣本的密度峰值點,但其低密度區(qū)域模態(tài)中心選取易受高密度區(qū)域非模態(tài)中心點干擾產(chǎn)生不合理的模態(tài)劃分結(jié)果,導致其預測誤差較大,且對不同批次的預測結(jié)果具有較大的波動。與這些方法相比,本文方法考慮了過程數(shù)據(jù)的高維特征,且能夠獲取合理的模態(tài)中心,有效實現(xiàn)了青霉素發(fā)酵過程的模態(tài)劃分,提高了青霉素濃度的在線預測精度。

4 結(jié)論

間歇過程數(shù)據(jù)的高維特征和模態(tài)中心選取影響模態(tài)劃分結(jié)果的合理性,導致間歇過程質(zhì)量變量在線預測精度較低。本文提出了一種基于IDPC-RVM的多模態(tài)間歇過程質(zhì)量變量在線預測方法。該方法所構建的樣本距離計算函數(shù),充分考慮了過程數(shù)據(jù)高維特征對樣本相似性度量的影響,其結(jié)果更有利于間歇過程的模態(tài)劃分;在樣本密度不平衡情況下,結(jié)合提出的樣本得分計算方式,所構建的模態(tài)中心選取策略能夠克服高密度區(qū)域非模態(tài)中心點的干擾,準確獲取間歇過程的模態(tài)中心,避免了不合理的模態(tài)劃分結(jié)果,從而提高了多模態(tài)模型的預測精度。青霉素發(fā)酵過程的實驗結(jié)果表明,相較于SCFCM-RVM方法和DPC-RVM方法,本文方法實現(xiàn)了合理的模態(tài)劃分,建立的多模態(tài)模型進一步提升了青霉素濃度的在線預測精度。


關鍵字:優(yōu)秀論文

網(wǎng)絡客服QQ: 沈編輯

投訴建議:0373-5939925????投訴建議QQ:

招聘合作:2851259250@qq.com (如您是期刊主編、文章高手,可通過郵件合作)

地址:河南省新鄉(xiāng)市金穗大道東段266號中州期刊聯(lián)盟 ICP備案號:豫ICP備2020036848

【免責聲明】:中州期刊聯(lián)盟所提供的信息資源如有侵權、違規(guī),請及時告知。

版權所有:中州期刊聯(lián)盟(新鄉(xiāng)市博翰文化傳媒有限公司)

關注”中州期刊聯(lián)盟”公眾號
了解論文寫作全系列課程

核心期刊為何難發(fā)?

論文發(fā)表總嫌貴?

職院單位發(fā)核心?

掃描關注公眾號

論文發(fā)表不再有疑惑

論文寫作全系列課程

掃碼了解更多

輕松寫核心期刊論文

在線留言