基于近紅外光譜和支持向量機(jī)回歸參數(shù)調(diào)優(yōu)的羊肉含水量檢測(cè)
由于新疆南疆綿羊生長(zhǎng)于獨(dú)特的氣候、土壤、水源等環(huán)境,其羊肉具有膻味較輕、脂肪與膽固醇含量較低等優(yōu)點(diǎn),深受各族人民群眾的喜愛,是老百姓餐桌上不可或缺的健康養(yǎng)生美食,供不應(yīng)求。在羊肉的加工、貯存過程中,水分含量直接影響其口感,因此,對(duì)羊肉含水量的檢測(cè)具有十分重要的意義。
傳統(tǒng)的實(shí)驗(yàn)室測(cè)定肉類水分的方法費(fèi)時(shí)費(fèi)力,且具有破壞性,較難實(shí)現(xiàn)大批量的快速檢測(cè)。近紅外光譜分析技術(shù)以其速度快、成本低和易于實(shí)現(xiàn)等特點(diǎn),廣泛用于肉制品的檢測(cè),有對(duì)肉制品摻假的檢測(cè)[1-2]、產(chǎn)地鑒別[3]、品種的識(shí)別[4]、嫩度的檢測(cè)[5]、新鮮度的檢測(cè)[6]、肌紅蛋白含量的研究[7]、pH值和顏色檢測(cè)[8]、水分含量[9]的預(yù)測(cè)等。陳杰等[10]采用不同的預(yù)處理方法對(duì)羊肉水分含量建立了偏最小二乘回歸偏最小二乘回歸(partial least squares, PLS)模型進(jìn)行檢測(cè),但是水分含量的測(cè)量范圍偏窄。張立欣等[11]建立了羊肉含水量的極限學(xué)習(xí)機(jī)極限學(xué)習(xí)機(jī)(extreme learning machine, ELM)預(yù)測(cè)模型,運(yùn)算速度比較快,但是沒有將光譜預(yù)處理方法和變量選擇方法結(jié)合起來考慮。
在近紅外光譜應(yīng)用中,為消除噪音的干擾,需要對(duì)光譜數(shù)據(jù)進(jìn)行預(yù)處理[12],常用方法有一階導(dǎo)數(shù)(first derivative,1-DER)[13]、標(biāo)準(zhǔn)正態(tài)變換(standard normal transformation,SNV)[14]、多元散射校正(multivariate scatter correction,MSC)[15]、SG平滑變換(Savizkg Golag smooth transformation,SG)[16]、小波變換(wave transformation,WT)[17]等。由于全波段光譜中不可避免地含有大量無信息甚至是干擾信息,影響模型的預(yù)測(cè)性能,因此,建模時(shí)需要選取特征波長(zhǎng)變量[18],特征變量的選取方法有主成分分析(principal component analysis, PCA)[19]、連續(xù)投影算法(successive projection algorithm, SPA)[20]、競(jìng)爭(zhēng)自適應(yīng)重加權(quán)算法(competitive adaptive reweighted sampling, CARS)[21]等。在模型建立方面,有PLS[10]、支持向量機(jī)回歸(support vector regression, SVR)[22]、BP神經(jīng)網(wǎng)絡(luò)(back propagation neural network)[23],ELM[24]等。
不同的研究對(duì)象在結(jié)構(gòu)、成分含量上的差異,導(dǎo)致光譜響應(yīng)和敏感波段也不盡相同。神經(jīng)網(wǎng)絡(luò)建立模型時(shí),參數(shù)的隨機(jī)賦值,也會(huì)影響模型的穩(wěn)健性。因此,本文在總結(jié)前人研究的基礎(chǔ)上,基于近紅外光譜技術(shù)和參數(shù)優(yōu)化的SVR算法,以新疆阿拉爾的綿羊肉為研究對(duì)象,依據(jù)光譜數(shù)據(jù)和水分含量的實(shí)測(cè)數(shù)據(jù),建立水分含量的最佳預(yù)測(cè)模型,為研制羊肉水分含量的無損檢測(cè)裝置提供理論參考。
1 材料與方法
1.1 數(shù)據(jù)材料
選用新疆阿拉爾市九團(tuán)10月齡左右的綿羊,新宰殺后取后腿肉。剔除筋和膜,分割修整成6 cm×6 cm×4 cm規(guī)格的樣品,編號(hào)分裝入食品保鮮袋,放置于冰箱進(jìn)行冷藏(4 ℃)。實(shí)驗(yàn)前逐次拿出,待其恢復(fù)到室溫后開始實(shí)驗(yàn)。
使用北京凱元盛世公司的JDSU-MicroNIR 1700便攜式近紅外光譜儀(900~1 700 nm),在室溫20~25 ℃環(huán)境下進(jìn)行實(shí)驗(yàn),樣品與光譜儀鏡頭保持2 mm的距離,對(duì)準(zhǔn)中心位置,每個(gè)樣品間隔5 s掃描3次,取平均值作為樣品的光譜數(shù)值,通過自帶Micro NIR軟件導(dǎo)出為 Excel數(shù)據(jù)。
羊肉忠水分含量的測(cè)定采用國(guó)標(biāo)法GB/5009.3—2016《食品安全國(guó)家標(biāo)準(zhǔn) 食品水分的測(cè)定》標(biāo)準(zhǔn)中第一法直接干燥法進(jìn)行測(cè)定,每塊樣品測(cè)3次,取其平均值作為水分含量值。
1.2 研究方法
1.2.1 光譜數(shù)據(jù)的預(yù)處理
在光譜檢測(cè)的過程中,會(huì)受到樣品背景等隨機(jī)因素的影響,導(dǎo)致光譜數(shù)據(jù)中含有噪聲,為提高模型的準(zhǔn)確性和穩(wěn)健性,需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。本文中的采用的光譜數(shù)據(jù)預(yù)處理的方法有1-DER、SNV、MSC、WT、SG、傅里葉變換(Fourier transformation,F(xiàn)T)。
1.2.2 特征波長(zhǎng)的提取
光譜能夠體現(xiàn)物質(zhì)所含成分及含量,但同時(shí)包含大量的冗余信息,為降低模型的復(fù)雜性,需要提取特征波長(zhǎng)。本文采取的方法有SPA和CARS。
1.2.3 建模方法
PLS法集主成分分析、典型相關(guān)分析和多元線性回歸分析3種分析方法的優(yōu)點(diǎn)于一身,可以避免數(shù)據(jù)非正態(tài)分布、因子結(jié)構(gòu)不確定性和模型不能識(shí)別等潛在問題。并且能較好地解決樣本個(gè)數(shù)少于變量個(gè)數(shù)等問題,特別當(dāng)各變量?jī)?nèi)部高度線性相關(guān)時(shí),用PLS法更有效。
SVR法是基于支持向量基的函數(shù)逼近回歸問題的學(xué)習(xí)方法,可用于小樣本問題的學(xué)習(xí),計(jì)算速度快,預(yù)測(cè)能力強(qiáng)。
1.2.4 模型驗(yàn)證
SPXY(sample set partitioning based on joint X-Y distance)算法在劃分訓(xùn)練集和測(cè)試集時(shí),將自變量和因變量間的距離同時(shí)考慮在內(nèi),使樣本更加均勻。按照SPXY算法劃分訓(xùn)練集和測(cè)試集,以測(cè)試集的均方誤差(mean square error, MSE)、擬合優(yōu)度(goodness of fit, R2)作為標(biāo)準(zhǔn)來評(píng)判模型的優(yōu)劣,計(jì)算如公式(1)和公式(2)所示:

(1)

(2)
式中:n為樣本個(gè)數(shù),yi為第i個(gè)樣本的觀測(cè)值,為第i個(gè)樣本的預(yù)測(cè)值,
為平均值。
2 結(jié)果與分析
2.1 樣本劃分
所分割的每份羊肉樣品在 900~1 700 nm的波段范圍內(nèi)原始光譜如圖1所示。

圖1 原始光譜圖
Fig.1 Original spectrum
近紅外光主要是對(duì)含氫基團(tuán)X—H(XC、N、O)振動(dòng)的倍頻和合頻吸收。由圖1可以看出,950 nm波段附近處有1個(gè)明顯的峰,這是O—H基團(tuán)的3倍頻吸收帶,1 060 nm波段處的峰是N—H基團(tuán)的3倍頻帶,1 180 nm處的波谷位于C—H的3倍頻帶等。如果樣品的組成相同,則其光譜也相同,反之亦然。因此,可以建立光譜與水分含量的關(guān)聯(lián)模型,依據(jù)測(cè)得的光譜數(shù)據(jù),就能很快預(yù)測(cè)其水分含量。同時(shí)考慮光譜特征和水分含量指標(biāo),按照SPXY算法,將訓(xùn)練集和測(cè)試集以4∶1的比例劃分,劃分結(jié)果如表1所示。
表1 訓(xùn)練集和測(cè)試集
Table 1 Training set and test set

由表1可以看出,最大值和最小值都出現(xiàn)在訓(xùn)練集中,因此,數(shù)據(jù)的劃分是合理的。
2.2 數(shù)據(jù)預(yù)處理
在近紅外光譜應(yīng)用時(shí),經(jīng)常會(huì)受到背景等隨機(jī)因素的干擾,因此需對(duì)光譜數(shù)據(jù)作預(yù)處理。分別采用1-DER、SNV、MSC、WT、SG、FT 6種方法對(duì)光譜數(shù)據(jù)預(yù)處理,對(duì)原始光譜數(shù)據(jù)(ORI)和預(yù)處理之后的光譜數(shù)據(jù),分別采用PLS算法、SVR算法建立水分含量的預(yù)測(cè)模型。PLS算法建模時(shí),以交叉驗(yàn)證的均方誤差最小確定潛變量個(gè)數(shù),SVR算法建模時(shí),懲罰參數(shù)c和核函數(shù)參數(shù)g采用網(wǎng)格法在{2^(-10),2^(-8),...2^(10)}范圍內(nèi)選取,結(jié)果如下表2所示。
表2 不同預(yù)處理下的建模效果
Table 2 Modeling effects under different pretreatment

以測(cè)試集的MSE、相關(guān)系數(shù)為評(píng)價(jià)指標(biāo),可以看出,采用PLS算法建模,比較而言,SNV預(yù)處理的效果較好,訓(xùn)練集的MSE為0.875 4,R2為0.869 4,測(cè)試集的為2.924 8和0.448 2,存在過擬合。采用SVR算法建模,1-DER預(yù)處理的效果較好,測(cè)試集的MSE為1.874 9,R2為0.672 7。為提高模型的預(yù)測(cè)效果,以下均采用1-DER和SNV預(yù)處理后的光譜數(shù)據(jù)。
2.3 波長(zhǎng)選擇
光譜能夠體現(xiàn)所含物質(zhì)的成分及含量,但也包含大量的冗余信息,為提高模型穩(wěn)健性,需要選取特征波段建模。分別采用SPA算法、CARS算法選取特征波段。
采用SPA算法,以1-DER預(yù)處理之后的光譜數(shù)據(jù)為例,特征波段的選取過程如圖2所示。

圖2 變量的選取過程
Fig.2 Variable selection process
由圖2可以看出,隨著參與建模的變量數(shù)目的增加,均方根誤差(root mean square error,RMSE)整體呈現(xiàn)衰減的趨勢(shì),當(dāng)變量數(shù)為13時(shí),均方根誤差達(dá)到最小值1.328,之后隨著所選變量個(gè)數(shù)的增加,均方根誤差并無減少的趨勢(shì),因此,選取13個(gè)波長(zhǎng)變量,選取的波長(zhǎng)變量如圖3所示,圖中小方塊對(duì)應(yīng)的橫坐標(biāo)為所選取的波長(zhǎng),即:908.10、932.88、945.27、951.47、970.05、976.24、988.63、1 001.02、1 007.21、1 013.40、1 019.60、1 180.65、1 242.60 nm。

圖3 選取的變量
Fig.3 Selected variables
采用CARS算法進(jìn)行變量選擇,以標(biāo)準(zhǔn)正態(tài)變換預(yù)處理之后的光譜數(shù)據(jù)為例,變量的選取過程如圖4所示。

a-變量?jī)?yōu)化過程;b-RMSE變化趨勢(shì);c-回歸系數(shù)變化
圖4 CARS 選取變量結(jié)果
Fig.4 Variable selection results
由圖4可以看出,在第18次迭代時(shí),交叉驗(yàn)證的RMSE達(dá)到最小為1.573 1,此時(shí)選出的變量對(duì)應(yīng)的波長(zhǎng)為:932.88、939.08、945.27、982.44、988.63、994.82、1 001.02、1 013.40、1 038.19、1 044.38、1 081.54、1 093.93、1 124.90、1 143.49、1 162.07、1 168.27、1 186.85、1 354.09、1 366.48、1 378.87、1 385.07、1 391.26、1 416.04、1 447.01、1 453.20、1 471.79、1 521.35、1 539.93、1 552.31、1 589.48 nm。
2.4 模型建立
基于預(yù)處理之后選出的特征變量作為輸入量,建立PLS模型和SVR模型,對(duì)羊肉中的水分含量進(jìn)行預(yù)測(cè),結(jié)果如表3所示。
表3 不同預(yù)處理方法下不同的波長(zhǎng)選擇方法的建模效果
Table 3 Modeling effects of different wavelength selection methods under different pretreatment methods

由表3可以看出,1-DER-CARS-SVR模型的預(yù)測(cè)性能最佳,預(yù)測(cè)的MSE為1.461 6,R2為0.718 3。優(yōu)于PLS模型的,這是因?yàn)檠蛉鈨?nèi)部成分結(jié)構(gòu)復(fù)雜,除了線性結(jié)構(gòu)外,還存在其他非線性結(jié)構(gòu)。
2.5 SVR模型的參數(shù)調(diào)優(yōu)
SVR做預(yù)測(cè)時(shí),需要設(shè)置懲罰參數(shù)c和核函數(shù)參數(shù)g。一階導(dǎo)數(shù)預(yù)處理后數(shù)據(jù),采用CARS方法選出特征變量建模,若隨機(jī)生成[0,1]范圍內(nèi)的參數(shù)c和g,并利用這些參數(shù)訓(xùn)練SVR模型,最后進(jìn)行預(yù)測(cè),10次運(yùn)行的結(jié)果如表4所示。
表4 隨機(jī)選取參數(shù)的建模結(jié)果
Table 4 Modeling results of randomly selected parameters

由表4可以看出,隨機(jī)選取的參數(shù)無法保證最后測(cè)試集的擬合效果。在實(shí)際操作中,可以先在大范圍內(nèi)粗略尋找參數(shù)c和g,讓c和g的取值變化都為2^(-10),2^(-8),...2^(10),計(jì)算對(duì)應(yīng)參數(shù)的5折交叉驗(yàn)證的均方根誤差,均方誤差的等高線如圖5所示。等高線表示c和g取相應(yīng)值時(shí),對(duì)應(yīng)的5折交叉驗(yàn)證的的MSE,3D視圖效果如圖6所示。

圖5 參數(shù)選擇的等高線圖
Fig.5 Contour map with parameters selection

圖6 3D視圖
Fig.6 3D view
由圖5和圖6可以看出,在保證均方誤差最小的情況下,c的范圍可縮小到[2^(-5),2^(5)],g的范圍可縮小到[2^(-10),2^(3)],這樣在上面粗略參數(shù)選擇的基礎(chǔ)上進(jìn)行精細(xì)的參數(shù)選擇,逐步縮小參數(shù)c和參數(shù)g的搜索范圍,對(duì)參數(shù)進(jìn)行精選。最后確定參數(shù)c和參數(shù)g的取值范圍分別為[2^(-1.5),2^0]和[2^(-5),2^(-3)],在此精細(xì)的參數(shù)范圍內(nèi)確定最佳的參數(shù)c和參數(shù)g的值,此時(shí),1-DER-CARS-SVR模型的擬合效果如表5所示。
表5 1-DER-CARS-SVR的擬合效果
Table 5 Fitting effect of 1-DER-CARS-SVR

3 結(jié)論
(1)將羊肉近紅外光譜數(shù)據(jù)分別進(jìn)行1-DER、SNV、MSC、WT、SG、FT 6種預(yù)處理方法,采用PLS算法和SVR算法建立預(yù)測(cè)模型。結(jié)果表明,SNV和1-DER 預(yù)處理方法分別讓2種預(yù)測(cè)模型達(dá)到最優(yōu)。
(2)分別采用SPA算法、CARS算法選取特征波段,建立PLS和SVR模型。最佳預(yù)測(cè)模型為1-DER-CARS-SVR模型,預(yù)測(cè)的MSE為1.461 6,R2為0.672 7,優(yōu)于PLS模型。
(3)SVR算法進(jìn)行建模時(shí),懲罰參數(shù)c和核函數(shù)參數(shù)g的可以在大范圍內(nèi)粗選,借助于等高線圖和3D視圖,逐步縮小參數(shù)的取值范圍,再進(jìn)行精選,最終選出最佳參數(shù)c為0.701 1,g為0.088 4,此時(shí)1-DER-CARS-SVR模型預(yù)測(cè)的MSE為1.216 2,R2為0.739 5,優(yōu)于隨機(jī)選取參數(shù)的預(yù)測(cè)效果。
本文研究了1種預(yù)處理方法、1種變量選擇方法下不同建模方法的預(yù)測(cè)效果,后續(xù)研究中可以進(jìn)一步將多種預(yù)處理聯(lián)合用于原始光譜數(shù)據(jù)預(yù)處理,多種變量選擇方法相結(jié)合采用不同的算法建立模型,比較分析模型的預(yù)測(cè)效果。
欄目分類
- 1網(wǎng)絡(luò)直播現(xiàn)狀及前景探究
- 2淺析電影《我的父親母親》視聽語(yǔ)言特色——影視文學(xué)
- 3中美貿(mào)易戰(zhàn)的發(fā)展和應(yīng)對(duì)
- 4論微信傳播的特點(diǎn)
- 5企業(yè)如何進(jìn)行危機(jī)公關(guān)——以三星Galaxy note7爆炸門事件為例
- 6淺析網(wǎng)絡(luò)暴力的社會(huì)危害及防治對(duì)策
- 7聚酮類化合物研究進(jìn)展
- 8淺析《極限挑戰(zhàn)》的節(jié)目特色及啟示
- 9《楚門的世界》的多重隱喻解讀
- 10體育產(chǎn)業(yè)發(fā)展中存在的問題及建議
- 游戲教學(xué)法在網(wǎng)球教學(xué)中的應(yīng)用
- 心理素質(zhì)在網(wǎng)球比賽中的作用
- 綠色科技視角下企業(yè)環(huán)境績(jī)效指標(biāo)體系構(gòu)建
- 節(jié)約型基礎(chǔ)上的綠色財(cái)政稅收政策研究
- 財(cái)政投資項(xiàng)目竣工決算存在的問題及對(duì)策
- 基于精細(xì)化管理視域探析公立醫(yī)院成本管控優(yōu)化策略
- 農(nóng)村信用社在金融市場(chǎng)中的營(yíng)銷技巧探究
- 實(shí)現(xiàn)我國(guó)糧食增產(chǎn)增收的財(cái)稅政策分析
- 離子色譜法同時(shí)測(cè)定卷煙紙中幾種金屬離子的含量
- IC厭氧反應(yīng)器處理造紙廢水效率的時(shí)間分布特征研究
- 2025年中科院分區(qū)表已公布!Scientific Reports降至三區(qū)
- 官方認(rèn)定!CSSCI南大核心首批191家“青年學(xué)者友好期刊名單”
- 2023JCR影響因子正式公布!
- 國(guó)內(nèi)核心期刊分級(jí)情況概覽及說明!本篇適用人群:需要發(fā)南核、北核、CSCD、科核、AMI、SCD、RCCSE期刊的學(xué)者
- 我用了一個(gè)很復(fù)雜的圖,幫你們解釋下“23版最新北大核心目錄有效期問題”。
- 重磅!CSSCI來源期刊(2023-2024版)最新期刊目錄看點(diǎn)分析!全網(wǎng)首發(fā)!
- CSSCI官方早就公布了最新南核目錄,有心的人已經(jīng)拿到并且投入使用!附南核目錄新增期刊!
- 北大核心期刊目錄換屆,我們應(yīng)該熟知的10個(gè)知識(shí)點(diǎn)。
- 注意,最新期刊論文格式標(biāo)準(zhǔn)已發(fā)布,論文寫作規(guī)則發(fā)生重大變化!文字版GB/T 7713.2—2022 學(xué)術(shù)論文編寫規(guī)則
- 盤點(diǎn)那些評(píng)職稱超管用的資源,1,3和5已經(jīng)“絕種”了