優(yōu)勝從選擇開始,我們是您最好的選擇!—— 中州期刊聯(lián)盟(新鄉(xiāng)市博翰文化傳媒有限公司)
0373-5939925
2851259250@qq.com
我要檢測 我要投稿 合法期刊查詢

基于高光譜成像技術的大曲還原糖含量預測及其可視化

作者:劉亮 黃丹平 田建平 黃丹 羅惠波 田穎 徐佳樂 葉建秋來源:《食品與發(fā)酵工業(yè)》日期:2022-04-24人氣:2377

大曲主要以生料小麥為原料,通過自然網(wǎng)羅制曲環(huán)境中的微生物接種發(fā)酵,微生物在曲坯中此消彼長,自然積溫轉化并風干而成的一種多酶多菌的微生態(tài)制品[1-3]。大曲是白酒生產(chǎn)過程中的關鍵材料,大曲的好壞直接影響白酒品質[4]。在發(fā)酵過程中,還原糖的含量是大曲質量評價的重要指標。因此,實時檢測還原糖含量對生產(chǎn)優(yōu)質大曲至關重要。大曲還原糖含量的常規(guī)檢測方法為化學方法,需要用化學試劑對樣品進行復雜而緩慢的實驗,且會對大曲樣品造成不可逆轉的破壞。因此,實現(xiàn)大曲還原糖含量的快速無損檢測具有重要意義。

高光譜成像技術作為一種新興的快速無損檢測技術[5]。它將機器視覺與光譜技術相結合,采集目標對象的二維圖像和一維光譜信息,從而獲取高分辨率的圖像和光譜數(shù)據(jù)[6]。區(qū)別于一般測量技術中對單點物質含量進行測量的方法,利用高光譜成像技術獲得的光譜與圖像信息能夠實現(xiàn)物質含量變化的空間分析[7]。近年來,高光譜成像技術以其無損、綠色、高效等優(yōu)點逐步引起食品領域研究人員的關注[8-10],高光譜成像技術與化學計量學方法結合,被廣泛用于各種物質含量檢測及可視化,如冬小麥氮素營養(yǎng)指標[11]、羊肉中飽和脂肪酸含量[12]、水稻籽粒直鏈淀粉含量[13]和馬鈴薯葉片葉綠素含量[14]。以上對物質含量檢測方面的研究均取得了較好的結果,但在大曲物質檢測方面,還沒有將高光譜無損技術應用于大曲還原糖含量檢測的相關研究報道。

因此,本研究以濃香型大曲為研究對象,針對大曲還原糖含量這一重要指標,提出一種基于高光譜成像技術、圖像處理技術結合統(tǒng)計學方法對不同發(fā)酵時間的大曲還原糖含量進行檢測的方法。研究內容如下:首先,采集大曲樣本對應的高光譜圖像;使用標準正態(tài)變量校正(standard normal variables,SNV)、卷積平滑(smoothing convolution,SG)、多元散射校正(multiplicative scatter correction,MSC)對大曲樣本的高光譜數(shù)據(jù)進行預處理;采用主成分分析(principal component analysis,PCA)中的載荷系數(shù)法、連續(xù)投影法(successive projections algorithm,SPA)以及PCA-SPA算法分別提取了樣本的特征波長;建立了基于全波長和特征波長的偏最小二乘回歸(partial least squares regression,PLSR)和最小支持向量機(least squares support vector machine,LS-SVM)模型,預測大曲的還原糖含量;采用最優(yōu)預測模型對不同發(fā)酵時間的大曲樣本進行了還原糖含量可視化。

1 材料和方法

1.1 樣品制備

以四川宜賓某酒廠生產(chǎn)的大曲為樣本,該大曲發(fā)酵周期為22 d。為獲取不同發(fā)酵時期的大曲樣品,在發(fā)酵過程中每天從曲房預設位置分別取6個樣品,共獲得132個大曲樣品。采集的大曲樣品用于后續(xù)高光譜圖像采集與還原糖含量測定。

1.2 儀器與設備

對大曲近紅外高光譜數(shù)據(jù)進行采集的系統(tǒng)由芬蘭FX17系列高光譜相機、2個150 W鹵素光源、電控移動平臺、計算機組成。其中FX17系列相機光譜范圍900~1 700 nm,采樣間隔3.58 nm,共采集224個波段,采集方式為推掃式,分辨率640×181像素,采樣曝光時間4.02 ms,掃描速度16.57 mm/s。

1.3 高光譜圖像獲取

采集數(shù)據(jù)時將曲塊碾成曲粉,用勺子取曲粉樣品于石英器皿中,填充至與邊緣平齊的位置,再將石英器皿放置在電控移動平臺的中心位置進行數(shù)據(jù)采集,得到132組大曲樣本的原始高光譜數(shù)據(jù)。

提取的高光譜數(shù)據(jù)經(jīng)過黑白校正,才能轉化為表征每個樣品的反射率[15]。此外,黑白校正可以消除樣本形狀的差異以及高光譜相機中存在暗電流引起的噪聲[16]。校正公式如公式(1)所示:

(1)

式中:I,校正后反射光譜率;I0,原始高光譜數(shù)據(jù);B,暗電流數(shù)據(jù);W,標準白板數(shù)據(jù)。

校正后選取大曲樣本的感興趣區(qū)域(region of interest,ROI),將ROI的光譜數(shù)據(jù)進行平均處理后作為大曲樣本的原始高光譜數(shù)據(jù),原理如圖1所示。使用圖像處理方法檢測培養(yǎng)皿的邊緣,由邊緣得到培養(yǎng)皿中心坐標;并以中心坐標為圓心,繪制直徑為161像素的圓形掩膜;提取掩膜區(qū)域的光譜數(shù)據(jù),進行平均處理,得到該ROI的光譜反射率。每個樣本提取一個ROI,求得每個ROI內所有像素點的平均光譜,得到132組光譜數(shù)據(jù)。

a-高光譜數(shù)據(jù);b-提取的ROI;c-ROI內每個像素點的光譜曲線;d-ROI平均光譜曲線

圖1 ROI光譜提取

Fig.1 ROI spectrum extraction

1.4 大曲還原糖測定

采用直接滴定法測定,此方法常用于食品中還原糖含量的測定。除去樣品中的蛋白質后,以亞甲藍為指示劑,在加熱條件下滴定校準的堿性酒石酸銅溶液(用標準還原糖溶液校準),根據(jù)消耗量計算還原糖含量。省略了相關的溶液制備方法和具體的滴定過程,樣品的還原糖含量按公式(2)計算:

(2)

式中:X,樣品的還原糖含量,g/100 g;m1,還原糖的質量,mg;m,樣品的質量,g;F,系數(shù),1;10,試樣溶液的體積,mL;250,定容體積,mL;1 000為換算系數(shù)。

2 數(shù)據(jù)分析方法

2.1 光譜數(shù)據(jù)預處理

由于暗電流、環(huán)境光等因素的影響,采集的原始光譜中摻雜了與樣本無關的信息。采用合適的光譜預處理算法可以有效減弱各種因素對還原糖原始光譜數(shù)據(jù)的影響,提高預測模型的穩(wěn)定性和預測能力[17-18]。本文采用MSC、SG、SNV共3種預處理方法。

2.2 特征波長篩選

獲取的大曲高光譜樣本的數(shù)據(jù)量大,波段數(shù)量多,且相鄰波長圖像高度相關,含有很多冗余信息和干擾信息,會影響建模的效率[19]。因此需要采用合適的方法篩選與表征指標高度相關的特征波長,以增加模型的魯棒性和泛化性[20]。本文采取PCA算法與SPA進行特征波長提取。

2.2.1 PCA

PCA是一種常見的數(shù)據(jù)分析方式,常用于高維數(shù)據(jù)的降維,可用于提取數(shù)據(jù)的主要特征分量。PCA得到的每個主成分都是原始數(shù)據(jù)中所有變量的線性組合。使用PCA載荷系數(shù)提取光譜特征波長步驟如下:首先使用PCA算法計算光譜數(shù)據(jù)的主成分;然后,選擇前幾個貢獻率大的主成分對應的載荷因子;最后,根據(jù)閾值選擇載荷因曲線對應的波長作為特征波長。具有較大載荷因子的波長對應于光譜曲線中的重要峰谷[21]。本文使用PCA提取特征波長的目的是去除數(shù)據(jù)中不相關或信息含量低的波長,以降低數(shù)據(jù)維度。

2.2.2 SPA算法

SPA算法是一種使矢量空間共線性最小化的前向變量選擇算法,可以將有效的信息從大量的光譜數(shù)據(jù)中篩選出來,找到光譜變量之間共線性最小的特征波長[22]。本文使用SPA提取特征波長的目的是找到光譜變量之間共線性最小的特征波長,優(yōu)化建模條件。

2.2.3 PCA-SPA算法

本研究使用了一種新興的特征波長提取算法。該算法由PCA和SPA組成,稱為PCA-SPA算法[23]。使用該算法時先用PCA通過主成分的載荷系數(shù)提取光譜特征波長,然后在此基礎上使用SPA算法進行特征波長的二次提取。使用PCA-SPA算法的目的是確定還原糖的特征波長,構建更穩(wěn)定、更簡單的檢測模型。

2.3 數(shù)學模型的建立與評價

本研究分別采用PLSR和LS-SVM模型建立還原糖含量檢測模型。兩種模型均可用于探索光譜維度X(大曲的光譜數(shù)據(jù))與含量Y(大曲還原糖含量)之間的潛在關系。通過校正集決定系數(shù)校正集均方根誤差(root mean square error of calibration,RMSEC),預測集決定系數(shù)預測集均方根誤差(root mean square error of prediction set,RMSEP)對大曲還原糖含量預測模型的準確性和預測能力進行評價分析。其中決定系數(shù)越接近于1越好,均方根誤差RMSEC和RMSEP越接近于0越好[24]。

2.4 還原糖含量可視化

為直觀測定指標的含量分布情況,為大曲樣品的ROI中還原糖的含量進行可視化處理。提取大曲樣本高光譜圖像每個像元的光譜反射率,依據(jù)檢測模型計算每個像元的還原糖含量。由于大曲還原糖含量在0.8~10 g/100 g,為了將不同發(fā)酵期間的大曲樣本感興趣區(qū)域內各像素點的還原糖含量用偽彩色圖顯示,需要將各像素點的大曲還原糖含量數(shù)值映射到0~255灰度圖像的范圍期間。然后對灰度圖像進行偽彩色處理形成還原糖含量的可視化分布圖。還原糖含量的可視化彩色分布圖直觀的顯示出還原糖含量的二維分布,可以更好的觀察不同發(fā)酵時期的大曲還原糖含量及其分布情況。

3 結果與分析

3.1 大曲還原糖含量的變化

本研究采用Kennard-Stone(KS)算法將132個大曲光譜數(shù)據(jù)分為訓練集(100)和預測集(32),如表1所示。

表1 大曲樣品還原糖含量統(tǒng)計表

Table 1 Statistics of reducing sugar content in Daqu samples

3.2 大曲樣品的光譜特征

由于光譜曲線的首尾波長噪聲較大,為保證數(shù)據(jù)的準確性,去掉首尾10個波長的數(shù)據(jù)。圖2顯示了大曲在不同發(fā)酵時期的204個波段的平均光譜反射率曲線。

圖2 原始光譜圖

Fig.2 Original spectrogram

在波長范圍內,光譜曲線表現(xiàn)出相同的吸收帶和反射峰,但不同帶的反射率不同,這主要是由于大曲在不同發(fā)酵時期的物質組成存在差異。近紅外波長范圍內的吸收峰都是由O—H、C—H、N—H等共價鍵的吸收引起的。O—H作用于980 nm左右的波長,這是因為水的作用;C—H作用于1 210 nm附近的波長,這歸功于脂肪;N—H作用于1 442 nm附近的波長,這是由于蛋白質[12]。

3.3 基于全波長光譜預測大曲還原糖的含量

基于原始光譜(無處理)和3種預處理的204個波長,分別建立PLSR和LS-SVM預測模型,建模效果如表2所示。

表2 PLSR和LS-SVM模型全光譜建模效果

Table 2 Full spectrum modeling effect of PLSR and LS-SVM models

經(jīng)過SNV預處理所建立的PLSR模型效果最佳,預測集決定系數(shù)為0.905 2,RMSEP為0.544 1 g/100 g,優(yōu)于其他方法。后續(xù)建模分析均基于SNV算法預處理后的樣本光譜進行分析,經(jīng)SNV預處理后的樣本光譜曲線如圖3所示。

圖3 SNV預處理結果

Fig.3 SNV pretreatment results

3.4 模型優(yōu)化

3.4.1 基于SPA提取特征波長的大曲還原糖預測模型

對SNV算法預處理后的204個波段的樣本光譜進行SPA特征波長提取,將提取后的特征波長進行PLSR與LS-SVM建模預測的結果如表3所示。

由表3可知,對經(jīng)過SPA算法進行特征提取的光譜數(shù)據(jù)進行建模,PLSR在訓練集和測試集的表現(xiàn)均優(yōu)于LS-SVM,且PLSR模型訓練集和測試集的精度差異更小,表明PLSR較LS-SVM有更好的精度和穩(wěn)定性。該SNV-SPA-PLSR預測模型的預測集決定系數(shù)為0.914 5,預測集均方根誤差RMSEP為0.503 0 g/100 g,波段數(shù)為61,光譜波段減少量為70%。

表3 基于SPA提取特征波長的光譜建模效果

Table 3 Spectral modeling effect of extracting characteristic wavelength based on SPA

3.4.2 基于PCA載荷因子提取特征波長的大曲還原糖預測模型

對SNV算法預處理后的204個波段的樣本光譜進行PCA運算,前3個主成分的貢獻率如圖4所示,其中還原糖的前3個主成分貢獻率之和達到99.96%,后續(xù)主成分的累計貢獻率提高幅度逐步變小,因此選擇前3個主成分的載荷因子提取特征波長。

圖4 PCA中主成分的貢獻率

Fig.4 Contribution rate of principal components in PCA

利用PCA光譜數(shù)據(jù)主成分,根據(jù)前3個主成分對應的載荷因子提取還原糖的特征波長,根據(jù)設置的載荷因子的閾值,可得到不同數(shù)目的特征波長,并進行PLSR和LS-SVM建模,建模效果如表4所示。隨著載荷閾值的增加,提取的特征波長數(shù)量會快速的減少,而后減少得較慢,最后不發(fā)生變化,這表明PCA載荷因子對變量的選擇是一個從粗略到精細的過程。當載荷因子的閾值達到0.060時,選擇的特征波長數(shù)目變化趨于平緩,且此時建模效果較差,預測精度皆在0.86及以下,說明閾值設置過高,在提取特征波長的過程中刪去了一部分與還原糖相關的波段。說明當載荷因子的閾值小于0.060時,算法濾除與大曲還原糖無關的光譜信息。

表4 基于PCA提取特征波長的光譜PLSR建模效果

Table 4 Spectral PLSR modeling effect based on PCA extracting characteristic wavelength

由表4中不同載荷因子閾值提取的不同特征波長建模效果來看,PLSR建模精度明顯優(yōu)于LS-SVM。在載荷因子閾值為0.045時PLSR建模預測集的最高,達到0.916 8 g/100 g,在該載荷閾值下提取出的特征波長共114個,光譜波段減少量為44%。

3.4.3 基于PCA-SPA提取特征波長的大曲還原糖預測模型

在研究中,分別將大曲的光譜數(shù)據(jù)進行了PCA和SPA算法的特征波長提取。單獨使用SPA算法時,盡管降低了特征波長點建的共線性,但也會保留下一些無信息、甚至會產(chǎn)生干擾的波長點。同樣,當在單獨使用PCA算法進行特征波長提取時,也會留下一些信息量較少的波長。因此,本實驗中將PCA算法與SPA算法聯(lián)合,實現(xiàn)兩者之間的優(yōu)勢互補,建立基于PCA-SPA特征波段選取的PLSR大曲還原糖含量預測模型。

使用PCA-SPA算法對光譜數(shù)據(jù)進行特征波長提取。設定PCA的載荷因子閾值為0.045,經(jīng)過2種算法提取特征,得到26個特征波長點,分布如圖5。圖中藍色光譜曲線為132個大曲樣本的平均光譜反射率曲線,橙色標記點對應選擇的波段位置。還原糖的特征波長主要分布在短波近紅外區(qū),且基本分布在光譜曲線的波峰波谷附近。

圖5 PCA-SPA算法提取的特征波長

Fig.5 Characteristic wavelength extracted by PCA-SPA algorithm

對基于SNV-PCA-SPA方法提取的特征波長進行PLSR與LS-SVM建模分析。LS-SVM預測模型的訓練集和預測集的決定系數(shù)分別為0.863 4和0.802 1,訓練集和預測集的均方根誤差分別為0.662 2和1.119 4 g/100 g。PLSR模型預測大曲還原糖的效果最好,訓練集和預測集的決定系數(shù)分別為0.983 2和0.922 7,訓練集和預測集的均方根誤差分別為0.057 3和0.455 6 g/100 g,光譜波段數(shù)減少了87%。PLSR模型預測集的擬合效果如圖6所示。

圖6 預測集的擬合效果圖

Fig.6 Fitting effect diagram of prediction set

3.4.4 最優(yōu)大曲還原糖預測模型

經(jīng)過上述實驗分析,本研究確定了SNV-PCA-SPA-PLSR為最優(yōu)的大曲還原糖含量的預測模型。首先對基于原始光譜和3種預處理的204個波長,建立PLSR和LS-SVM預測模型,得出經(jīng)SNV預處理算法的PLSR建模效果最佳;為減少建模的復雜度以及提升建模精度,分別使用PCA載荷系數(shù)法以及SPA算法對光譜數(shù)據(jù)進行特征提取,經(jīng)建模分析,得出最佳模型為PCA-PLSR以及SPA-PLSR,建模所用光譜數(shù)據(jù)分別減少70%和44%;為進一步提高建模效果,提出PCA-SPA算法進行特征提取,經(jīng)建模驗證,PLSR模型精度及準確度皆有一定的提高,建模所用光譜數(shù)據(jù)減少87%。綜上所述,本研究的最優(yōu)大曲還原糖含量的預測模型為SNV-PCA-SPA-PLSR模型。

3.5 大曲還原糖含量可視化

在確定了SNV-PCA-SPA-PLSR為最優(yōu)的大曲還原糖含量的預測模型后,使用最優(yōu)模型對大曲還原糖含量進行可視化分析。不同發(fā)酵時期的大曲樣本的還原糖含量可視化如圖7所示,其中不同的顏色代表不同的還原糖含量值,深紅色區(qū)域表示還原糖含量值較高,深藍色區(qū)域表示還原糖含量值較低。隨著還原糖含量的增加,顏色逐漸由深藍色變?yōu)樯罴t色。ROI中分布不均還原糖的含量可以通過顏色清晰區(qū)分,與單點檢測技術相比,高光譜成像可以實現(xiàn)大曲任意局部區(qū)域的可視化。

a-第1天;b-第5天;c-第9天;d-第13天;e-第17天;f-第22天

圖7 大曲還原糖可視化分布

Fig.7 Visual distribution of reducing sugar in Daqu

由圖7可知,不同發(fā)酵階段的大曲還原糖含量明顯不同,隨著發(fā)酵時間的進行,還原糖含量不斷降低,顏色逐漸由紅變藍。發(fā)酵前期有較多紅色區(qū)域,因為發(fā)酵剛開始時,微生物大量繁殖,產(chǎn)出大量還原糖;隨著發(fā)酵進行,還原糖含量逐漸下降,這是因為酵母菌等其他菌種的快速增殖消耗了部分還原糖[25]。高光譜成像可以直觀顯示大曲還原糖分布,為判定大曲發(fā)酵狀態(tài),調節(jié)曲房環(huán)境提供了依據(jù)。

4 結論

本實驗用高光譜成像系統(tǒng)采集了大曲樣本的高光譜圖像,使用K-S算法將大曲樣本以3∶1的比例進行劃分,訓練集樣本個數(shù)為100個,預測集樣本個數(shù)為32個。利用原始(無處理)和不同預處理方式(SNV、MSC、SG)處理后的光譜數(shù)據(jù)分布建立PLSR和LS-SVM模型大曲還原糖含量,發(fā)現(xiàn)SNV方法可以提高模型預測還原糖含量的精度,訓練集和預測集的決定系數(shù)分別為0.954 0和0.905 2,均方根誤差RMSEC和RMSEP分別為0.159 2 g/100 g和0.544 1 g/100 g。

對SNV預處理過后的光譜數(shù)據(jù)分別使用SPA、PCA和PCA-SPA 3種方法進行特征波長提取?;诓煌椒ㄌ崛〉奶卣鞑ㄩL建立的PLSR和LS-SVM模型預測還原糖含量,發(fā)現(xiàn)用PCA-SPA提取的特征波長建立的PLSR模型最優(yōu),訓練集和預測集的決定系數(shù)分別為0.983 2和0.922 7,均方根誤差RMSEC和RMSEP分別為0.057 3 g/100 g和0.455 6 g/100 g。利用最優(yōu)模型對大曲樣本ROI區(qū)域的還原糖含量進行可視化,直觀反映了不同發(fā)酵時期的大曲還原糖含量的變化情況。研究結果表明,高光譜成像技術用于大曲還原糖含量快速檢測是可行的,為大曲發(fā)酵狀態(tài)判定和曲房環(huán)境調控提供了理論基礎。

在進一步研究中,應擴大樣本獲取范圍,采集不同發(fā)酵批次的大曲樣本,擴大樣本數(shù)量,增大樣本的還原糖范圍,使模型的預測性更高,應用更加廣泛。


網(wǎng)絡客服QQ: 沈編輯

投訴建議:0373-5939925????投訴建議QQ:

招聘合作:2851259250@qq.com (如您是期刊主編、文章高手,可通過郵件合作)

地址:河南省新鄉(xiāng)市金穗大道東段266號中州期刊聯(lián)盟 ICP備案號:豫ICP備2020036848

【免責聲明】:中州期刊聯(lián)盟所提供的信息資源如有侵權、違規(guī),請及時告知。

版權所有:中州期刊聯(lián)盟(新鄉(xiāng)市博翰文化傳媒有限公司)

關注”中州期刊聯(lián)盟”公眾號
了解論文寫作全系列課程

核心期刊為何難發(fā)?

論文發(fā)表總嫌貴?

職院單位發(fā)核心?

掃描關注公眾號

論文發(fā)表不再有疑惑

論文寫作全系列課程

掃碼了解更多

輕松寫核心期刊論文

在線留言