您的位置：網(wǎng)站首頁(yè) > 優(yōu)秀論文 > 其他論文 > 正文

基于近紅外光譜和支持向量機(jī)回歸參數(shù)調(diào)優(yōu)的羊肉含水量檢測(cè)

作者：張立欣楊翠芳張曉張楠楠王亞明來(lái)源：《食品與發(fā)酵工業(yè)》日期：2022-09-29人氣：1074

由于新疆南疆綿羊生長(zhǎng)于獨(dú)特的氣候、土壤、水源等環(huán)境，其羊肉具有膻味較輕、脂肪與膽固醇含量較低等優(yōu)點(diǎn)，深受各族人民群眾的喜愛(ài)，是老百姓餐桌上不可或缺的健康養(yǎng)生美食，供不應(yīng)求。在羊肉的加工、貯存過(guò)程中，水分含量直接影響其口感，因此，對(duì)羊肉含水量的檢測(cè)具有十分重要的意義。

傳統(tǒng)的實(shí)驗(yàn)室測(cè)定肉類(lèi)水分的方法費(fèi)時(shí)費(fèi)力，且具有破壞性，較難實(shí)現(xiàn)大批量的快速檢測(cè)。近紅外光譜分析技術(shù)以其速度快、成本低和易于實(shí)現(xiàn)等特點(diǎn)，廣泛用于肉制品的檢測(cè)，有對(duì)肉制品摻假的檢測(cè)[1-2]、產(chǎn)地鑒別[3]、品種的識(shí)別[4]、嫩度的檢測(cè)[5]、新鮮度的檢測(cè)[6]、肌紅蛋白含量的研究[7]、pH值和顏色檢測(cè)[8]、水分含量[9]的預(yù)測(cè)等。陳杰等[10]采用不同的預(yù)處理方法對(duì)羊肉水分含量建立了偏最小二乘回歸偏最小二乘回歸(partial least squares, PLS)模型進(jìn)行檢測(cè)，但是水分含量的測(cè)量范圍偏窄。張立欣等[11]建立了羊肉含水量的極限學(xué)習(xí)機(jī)極限學(xué)習(xí)機(jī)(extreme learning machine, ELM)預(yù)測(cè)模型，運(yùn)算速度比較快，但是沒(méi)有將光譜預(yù)處理方法和變量選擇方法結(jié)合起來(lái)考慮。

在近紅外光譜應(yīng)用中，為消除噪音的干擾，需要對(duì)光譜數(shù)據(jù)進(jìn)行預(yù)處理[12]，常用方法有一階導(dǎo)數(shù)(first derivative，1-DER)[13]、標(biāo)準(zhǔn)正態(tài)變換(standard normal transformation，SNV)[14]、多元散射校正(multivariate scatter correction，MSC)[15]、SG平滑變換(Savizkg Golag smooth transformation，SG)[16]、小波變換(wave transformation，WT)[17]等。由于全波段光譜中不可避免地含有大量無(wú)信息甚至是干擾信息，影響模型的預(yù)測(cè)性能，因此，建模時(shí)需要選取特征波長(zhǎng)變量[18]，特征變量的選取方法有主成分分析(principal component analysis, PCA)[19]、連續(xù)投影算法(successive projection algorithm, SPA)[20]、競(jìng)爭(zhēng)自適應(yīng)重加權(quán)算法(competitive adaptive reweighted sampling, CARS)[21]等。在模型建立方面，有PLS[10]、支持向量機(jī)回歸(support vector regression, SVR)[22]、BP神經(jīng)網(wǎng)絡(luò)(back propagation neural network)[23]，ELM[24]等。

不同的研究對(duì)象在結(jié)構(gòu)、成分含量上的差異，導(dǎo)致光譜響應(yīng)和敏感波段也不盡相同。神經(jīng)網(wǎng)絡(luò)建立模型時(shí)，參數(shù)的隨機(jī)賦值，也會(huì)影響模型的穩(wěn)健性。因此，本文在總結(jié)前人研究的基礎(chǔ)上，基于近紅外光譜技術(shù)和參數(shù)優(yōu)化的SVR算法，以新疆阿拉爾的綿羊肉為研究對(duì)象，依據(jù)光譜數(shù)據(jù)和水分含量的實(shí)測(cè)數(shù)據(jù)，建立水分含量的最佳預(yù)測(cè)模型，為研制羊肉水分含量的無(wú)損檢測(cè)裝置提供理論參考。

1 材料與方法

1.1 數(shù)據(jù)材料

選用新疆阿拉爾市九團(tuán)10月齡左右的綿羊，新宰殺后取后腿肉。剔除筋和膜，分割修整成6 cm×6 cm×4 cm規(guī)格的樣品，編號(hào)分裝入食品保鮮袋，放置于冰箱進(jìn)行冷藏(4 ℃)。實(shí)驗(yàn)前逐次拿出，待其恢復(fù)到室溫后開(kāi)始實(shí)驗(yàn)。

使用北京凱元盛世公司的JDSU-MicroNIR 1700便攜式近紅外光譜儀(900～1 700 nm)，在室溫20～25 ℃環(huán)境下進(jìn)行實(shí)驗(yàn)，樣品與光譜儀鏡頭保持2 mm的距離，對(duì)準(zhǔn)中心位置，每個(gè)樣品間隔5 s掃描3次，取平均值作為樣品的光譜數(shù)值，通過(guò)自帶Micro NIR軟件導(dǎo)出為 Excel數(shù)據(jù)。

羊肉忠水分含量的測(cè)定采用國(guó)標(biāo)法GB/5009.3—2016《食品安全國(guó)家標(biāo)準(zhǔn) 食品水分的測(cè)定》標(biāo)準(zhǔn)中第一法直接干燥法進(jìn)行測(cè)定，每塊樣品測(cè)3次，取其平均值作為水分含量值。

1.2 研究方法

1.2.1 光譜數(shù)據(jù)的預(yù)處理

在光譜檢測(cè)的過(guò)程中，會(huì)受到樣品背景等隨機(jī)因素的影響，導(dǎo)致光譜數(shù)據(jù)中含有噪聲，為提高模型的準(zhǔn)確性和穩(wěn)健性，需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。本文中的采用的光譜數(shù)據(jù)預(yù)處理的方法有1-DER、SNV、MSC、WT、SG、傅里葉變換(Fourier transformation，F(xiàn)T)。

1.2.2 特征波長(zhǎng)的提取

光譜能夠體現(xiàn)物質(zhì)所含成分及含量，但同時(shí)包含大量的冗余信息，為降低模型的復(fù)雜性，需要提取特征波長(zhǎng)。本文采取的方法有SPA和CARS。

1.2.3 建模方法

PLS法集主成分分析、典型相關(guān)分析和多元線性回歸分析3種分析方法的優(yōu)點(diǎn)于一身，可以避免數(shù)據(jù)非正態(tài)分布、因子結(jié)構(gòu)不確定性和模型不能識(shí)別等潛在問(wèn)題。并且能較好地解決樣本個(gè)數(shù)少于變量個(gè)數(shù)等問(wèn)題，特別當(dāng)各變量?jī)?nèi)部高度線性相關(guān)時(shí)，用PLS法更有效。

SVR法是基于支持向量基的函數(shù)逼近回歸問(wèn)題的學(xué)習(xí)方法，可用于小樣本問(wèn)題的學(xué)習(xí)，計(jì)算速度快，預(yù)測(cè)能力強(qiáng)。

1.2.4 模型驗(yàn)證

SPXY(sample set partitioning based on joint X-Y distance)算法在劃分訓(xùn)練集和測(cè)試集時(shí)，將自變量和因變量間的距離同時(shí)考慮在內(nèi)，使樣本更加均勻。按照SPXY算法劃分訓(xùn)練集和測(cè)試集，以測(cè)試集的均方誤差(mean square error, MSE)、擬合優(yōu)度(goodness of fit, R2)作為標(biāo)準(zhǔn)來(lái)評(píng)判模型的優(yōu)劣，計(jì)算如公式(1)和公式(2)所示：

(1)

(2)

式中：n為樣本個(gè)數(shù)，yi為第i個(gè)樣本的觀測(cè)值，為第i個(gè)樣本的預(yù)測(cè)值，為平均值。

2 結(jié)果與分析

2.1 樣本劃分

所分割的每份羊肉樣品在 900～1 700 nm的波段范圍內(nèi)原始光譜如圖1所示。

圖1 原始光譜圖
Fig.1 Original spectrum

近紅外光主要是對(duì)含氫基團(tuán)X—H(XC、N、O)振動(dòng)的倍頻和合頻吸收。由圖1可以看出，950 nm波段附近處有1個(gè)明顯的峰，這是O—H基團(tuán)的3倍頻吸收帶，1 060 nm波段處的峰是N—H基團(tuán)的3倍頻帶，1 180 nm處的波谷位于C—H的3倍頻帶等。如果樣品的組成相同，則其光譜也相同，反之亦然。因此，可以建立光譜與水分含量的關(guān)聯(lián)模型，依據(jù)測(cè)得的光譜數(shù)據(jù)，就能很快預(yù)測(cè)其水分含量。同時(shí)考慮光譜特征和水分含量指標(biāo)，按照SPXY算法，將訓(xùn)練集和測(cè)試集以4∶1的比例劃分，劃分結(jié)果如表1所示。

表1 訓(xùn)練集和測(cè)試集
Table 1 Training set and test set

由表1可以看出，最大值和最小值都出現(xiàn)在訓(xùn)練集中，因此，數(shù)據(jù)的劃分是合理的。

2.2 數(shù)據(jù)預(yù)處理

在近紅外光譜應(yīng)用時(shí)，經(jīng)常會(huì)受到背景等隨機(jī)因素的干擾，因此需對(duì)光譜數(shù)據(jù)作預(yù)處理。分別采用1-DER、SNV、MSC、WT、SG、FT 6種方法對(duì)光譜數(shù)據(jù)預(yù)處理，對(duì)原始光譜數(shù)據(jù)(ORI)和預(yù)處理之后的光譜數(shù)據(jù)，分別采用PLS算法、SVR算法建立水分含量的預(yù)測(cè)模型。PLS算法建模時(shí)，以交叉驗(yàn)證的均方誤差最小確定潛變量個(gè)數(shù)，SVR算法建模時(shí)，懲罰參數(shù)c和核函數(shù)參數(shù)g采用網(wǎng)格法在{2^(-10),2^(-8),...2^(10)}范圍內(nèi)選取，結(jié)果如下表2所示。

表2 不同預(yù)處理下的建模效果
Table 2 Modeling effects under different pretreatment

以測(cè)試集的MSE、相關(guān)系數(shù)為評(píng)價(jià)指標(biāo)，可以看出，采用PLS算法建模，比較而言，SNV預(yù)處理的效果較好，訓(xùn)練集的MSE為0.875 4，R2為0.869 4，測(cè)試集的為2.924 8和0.448 2，存在過(guò)擬合。采用SVR算法建模，1-DER預(yù)處理的效果較好，測(cè)試集的MSE為1.874 9，R2為0.672 7。為提高模型的預(yù)測(cè)效果，以下均采用1-DER和SNV預(yù)處理后的光譜數(shù)據(jù)。

2.3 波長(zhǎng)選擇

光譜能夠體現(xiàn)所含物質(zhì)的成分及含量，但也包含大量的冗余信息，為提高模型穩(wěn)健性，需要選取特征波段建模。分別采用SPA算法、CARS算法選取特征波段。

采用SPA算法，以1-DER預(yù)處理之后的光譜數(shù)據(jù)為例，特征波段的選取過(guò)程如圖2所示。

圖2 變量的選取過(guò)程
Fig.2 Variable selection process

由圖2可以看出，隨著參與建模的變量數(shù)目的增加，均方根誤差(root mean square error,RMSE)整體呈現(xiàn)衰減的趨勢(shì)，當(dāng)變量數(shù)為13時(shí)，均方根誤差達(dá)到最小值1.328，之后隨著所選變量個(gè)數(shù)的增加，均方根誤差并無(wú)減少的趨勢(shì)，因此，選取13個(gè)波長(zhǎng)變量，選取的波長(zhǎng)變量如圖3所示，圖中小方塊對(duì)應(yīng)的橫坐標(biāo)為所選取的波長(zhǎng)，即：908.10、932.88、945.27、951.47、970.05、976.24、988.63、1 001.02、1 007.21、1 013.40、1 019.60、1 180.65、1 242.60 nm。

圖3 選取的變量
Fig.3 Selected variables

采用CARS算法進(jìn)行變量選擇，以標(biāo)準(zhǔn)正態(tài)變換預(yù)處理之后的光譜數(shù)據(jù)為例，變量的選取過(guò)程如圖4所示。

a-變量?jī)?yōu)化過(guò)程；b-RMSE變化趨勢(shì)；c-回歸系數(shù)變化
圖4 CARS 選取變量結(jié)果
Fig.4 Variable selection results

由圖4可以看出，在第18次迭代時(shí)，交叉驗(yàn)證的RMSE達(dá)到最小為1.573 1，此時(shí)選出的變量對(duì)應(yīng)的波長(zhǎng)為：932.88、939.08、945.27、982.44、988.63、994.82、1 001.02、1 013.40、1 038.19、1 044.38、1 081.54、1 093.93、1 124.90、1 143.49、1 162.07、1 168.27、1 186.85、1 354.09、1 366.48、1 378.87、1 385.07、1 391.26、1 416.04、1 447.01、1 453.20、1 471.79、1 521.35、1 539.93、1 552.31、1 589.48 nm。

2.4 模型建立

基于預(yù)處理之后選出的特征變量作為輸入量，建立PLS模型和SVR模型，對(duì)羊肉中的水分含量進(jìn)行預(yù)測(cè)，結(jié)果如表3所示。

表3 不同預(yù)處理方法下不同的波長(zhǎng)選擇方法的建模效果
Table 3 Modeling effects of different wavelength selection methods under different pretreatment methods

由表3可以看出，1-DER-CARS-SVR模型的預(yù)測(cè)性能最佳，預(yù)測(cè)的MSE為1.461 6，R2為0.718 3。優(yōu)于PLS模型的，這是因?yàn)檠蛉鈨?nèi)部成分結(jié)構(gòu)復(fù)雜，除了線性結(jié)構(gòu)外，還存在其他非線性結(jié)構(gòu)。

2.5 SVR模型的參數(shù)調(diào)優(yōu)

SVR做預(yù)測(cè)時(shí)，需要設(shè)置懲罰參數(shù)c和核函數(shù)參數(shù)g。一階導(dǎo)數(shù)預(yù)處理后數(shù)據(jù)，采用CARS方法選出特征變量建模，若隨機(jī)生成[0,1]范圍內(nèi)的參數(shù)c和g，并利用這些參數(shù)訓(xùn)練SVR模型，最后進(jìn)行預(yù)測(cè)，10次運(yùn)行的結(jié)果如表4所示。

表4 隨機(jī)選取參數(shù)的建模結(jié)果
Table 4 Modeling results of randomly selected parameters

由表4可以看出，隨機(jī)選取的參數(shù)無(wú)法保證最后測(cè)試集的擬合效果。在實(shí)際操作中，可以先在大范圍內(nèi)粗略尋找參數(shù)c和g，讓c和g的取值變化都為2^(-10),2^(-8),...2^(10)，計(jì)算對(duì)應(yīng)參數(shù)的5折交叉驗(yàn)證的均方根誤差，均方誤差的等高線如圖5所示。等高線表示c和g取相應(yīng)值時(shí)，對(duì)應(yīng)的5折交叉驗(yàn)證的的MSE，3D視圖效果如圖6所示。

圖5 參數(shù)選擇的等高線圖
Fig.5 Contour map with parameters selection

圖6 3D視圖
Fig.6 3D view

由圖5和圖6可以看出，在保證均方誤差最小的情況下，c的范圍可縮小到[2^(-5),2^(5)]，g的范圍可縮小到[2^(-10),2^(3)]，這樣在上面粗略參數(shù)選擇的基礎(chǔ)上進(jìn)行精細(xì)的參數(shù)選擇，逐步縮小參數(shù)c和參數(shù)g的搜索范圍，對(duì)參數(shù)進(jìn)行精選。最后確定參數(shù)c和參數(shù)g的取值范圍分別為[2^(-1.5),2^0]和[2^(-5),2^(-3)]，在此精細(xì)的參數(shù)范圍內(nèi)確定最佳的參數(shù)c和參數(shù)g的值，此時(shí)，1-DER-CARS-SVR模型的擬合效果如表5所示。

表5 1-DER-CARS-SVR的擬合效果
Table 5 Fitting effect of 1-DER-CARS-SVR

3 結(jié)論

(1)將羊肉近紅外光譜數(shù)據(jù)分別進(jìn)行1-DER、SNV、MSC、WT、SG、FT 6種預(yù)處理方法，采用PLS算法和SVR算法建立預(yù)測(cè)模型。結(jié)果表明，SNV和1-DER 預(yù)處理方法分別讓2種預(yù)測(cè)模型達(dá)到最優(yōu)。

(2)分別采用SPA算法、CARS算法選取特征波段，建立PLS和SVR模型。最佳預(yù)測(cè)模型為1-DER-CARS-SVR模型，預(yù)測(cè)的MSE為1.461 6，R2為0.672 7，優(yōu)于PLS模型。

(3)SVR算法進(jìn)行建模時(shí)，懲罰參數(shù)c和核函數(shù)參數(shù)g的可以在大范圍內(nèi)粗選，借助于等高線圖和3D視圖，逐步縮小參數(shù)的取值范圍，再進(jìn)行精選，最終選出最佳參數(shù)c為0.701 1，g為0.088 4，此時(shí)1-DER-CARS-SVR模型預(yù)測(cè)的MSE為1.216 2，R2為0.739 5，優(yōu)于隨機(jī)選取參數(shù)的預(yù)測(cè)效果。

本文研究了1種預(yù)處理方法、1種變量選擇方法下不同建模方法的預(yù)測(cè)效果，后續(xù)研究中可以進(jìn)一步將多種預(yù)處理聯(lián)合用于原始光譜數(shù)據(jù)預(yù)處理，多種變量選擇方法相結(jié)合采用不同的算法建立模型，比較分析模型的預(yù)測(cè)效果。

關(guān)鍵字：優(yōu)秀論文

上一篇：基于可見(jiàn)/近紅外光譜預(yù)測(cè)枇杷糖度及模型優(yōu)化
下一篇：1.7μm自同步皮秒脈沖隨機(jī)拉曼光纖激光器