基于可見/近紅外光譜預(yù)測枇杷糖度及模型優(yōu)化

作者：孟慶龍馮樹南尚靜黃人帥張艷曹森來源：《食品與發(fā)酵工業(yè)》日期：2022-09-29人氣：1496

枇杷的營養(yǎng)價值較為豐富，果實皮薄多汁，酸甜可口。我國貴州開陽是枇杷種植地之一，且開陽土壤富硒，使得開陽富硒枇杷深受歡迎[1]。但是，枇杷果實較為嬌貴，在采摘和貯藏的過程中，果實的品質(zhì)就會下降，其中，糖含量的變化十分明顯。隨著枇杷果實呼吸作用的進行，糖含量會逐漸上升，這就會導(dǎo)致果實的甜酸度不佳，影響到枇杷的口感和風(fēng)味，導(dǎo)致其經(jīng)濟價值降低。

我國水果糖度的傳統(tǒng)檢測方法雖然準確性較高，但是具有破壞性，且效率低、耗時長[2]；而依靠經(jīng)驗主觀判斷水果品質(zhì)又無統(tǒng)一標準，導(dǎo)致結(jié)果存在隨意性，對品質(zhì)的分選不準確。因此，在水果品質(zhì)的分選方面，無論是傳統(tǒng)的檢測方法還是個人經(jīng)驗主觀判斷都造成了水果品質(zhì)參差不齊，難以體現(xiàn)我國水果的市場競爭優(yōu)勢。開陽枇杷是貴州的特色水果，對其果實進行質(zhì)量分級能夠精準定位其市場價格，同時維護好開陽枇杷的區(qū)域品牌地位。由此可見，建立一套快速無損的枇杷果實的糖度檢測方法對于監(jiān)控其品質(zhì)、指導(dǎo)市場價格具有實際意義。

基于精密光譜檢測儀器的研發(fā)和化學(xué)計量學(xué)的飛速發(fā)展，以及光譜技術(shù)具有的可實現(xiàn)無損檢測的優(yōu)勢，光譜技術(shù)在水果品質(zhì)的檢測中得到十分廣泛的應(yīng)用。國內(nèi)外研究學(xué)者利用光譜技術(shù)開展了諸多水果品質(zhì)的研究[2-13]。其中，薄皮水果糖度或者可溶性固形物含量的無損檢測研究較多，比如獼猴桃[2-3]、蘋果[4-5]、荔枝[6]、藍莓[7-8]、梨[9]和李子[10]等。厚皮瓜果類水果因其尺寸大且不同部位果皮厚度不一，光譜技術(shù)獲取表皮下果肉的信息就會有差異，這必然影響模型的預(yù)測能力?；诠庾V技術(shù)檢測厚皮水果內(nèi)部品質(zhì)的研究較薄皮水果的少，但是也不乏很多優(yōu)秀的研究團隊對網(wǎng)紋瓜的可溶性固形物[11]、小西瓜的糖度[12-13]、甜瓜的糖度[14]、河套蜜瓜的糖度[15]、麒麟西瓜的糖度[16-17]等進行了研究。采用光譜技術(shù)對各類水果內(nèi)部品質(zhì)的研究已經(jīng)較為全面，但基于光纖光譜技術(shù)檢測枇杷糖度的研究鮮有報道。

本文通過光纖光譜儀采集開陽枇杷6個不同部位的反射光譜，對采集到的原始光譜進行平均，得到原始平均光譜，并對其進行預(yù)處理，探尋最優(yōu)的預(yù)處理方法；然后分別基于原始全光譜和預(yù)處理后的全光譜構(gòu)建枇杷糖度預(yù)測模型，并比較不同模型的優(yōu)劣；最后分別運用連續(xù)投影算法(successive projection algorithm，SPA)以及競爭性自適應(yīng)重加權(quán)算法(competitive adaptive reweighted sampling，CARS)提取特征光譜，再基于特征光譜和測得的參考值構(gòu)建預(yù)測開陽枇杷糖度的多元線性回歸模型，依據(jù)預(yù)測效果得到最優(yōu)模型，以期為枇杷品質(zhì)的無損快檢和分選提供理論依據(jù)與技術(shù)基礎(chǔ)。

1 材料與方法

1.1 實驗材料

開陽富硒枇杷來自貴州省貴陽市開陽縣禾豐鄉(xiāng)枇杷果園，于2021年5月23日采摘并挑選無病蟲害且無機械損傷的枇杷果共120個。樣品采摘后立即帶回實驗室，并在室溫[(22±2) ℃]條件下進行實驗。實驗前用軟紙輕輕地擦掉枇杷表面的雜物，對其依次編號后采集光譜以及測定糖度。

1.2 儀器與設(shè)備

(ATAGO PAL-α)折射儀，日本Atago公司，檢測范圍：0.0～85 °Brix，檢測精度：±0.2 °Brix。光纖光譜儀，蔚海光學(xué)儀器(上海)有限公司，該系統(tǒng)主要由：QEPro光譜儀(分辨率：2.84～3 nm)、R600-7-VIS-125F光纖(直徑600 μm)、HL-2000鹵鎢燈光源(波長范圍：360～2 400 nm)、反射探頭支架、適配器、標準反射白板以及計算機等構(gòu)成。系統(tǒng)結(jié)構(gòu)如圖1所示，其中系統(tǒng)的積分時間為110 ms，掃描平均次數(shù)是8，滑動平均寬度是1，光譜采集范圍為360～1 006.4 nm，此光譜區(qū)間共有844個波段。

圖1 光纖光譜儀框圖
Fig.1 The diagram of fiber-optic spectrometer

1.3 實驗方法

1.3.1 反射光譜采集

將待測枇杷樣品緊貼在反射探頭支架表面上(利用適配器將光纖探頭固定在反射探頭支架上，光纖探頭距離反射探頭支架表面約1 cm)，光譜采集部位如圖2所示，分別在每個樣品正(①、②、③)反(④、⑤、⑥)兩面果實的花萼、赤道、果蒂附近,3個部位采集信息，每個果實采集到6個光譜，將這6個光譜進行平均，以平均值作為該樣品的原始光譜數(shù)據(jù)。

圖2 枇杷光譜采集位置
Fig.2 The reflectance spectra collected in the region of loquat

1.3.2 糖度的測定

在完成光譜采集后，枇杷糖度采用折射儀按照NT/T 2637—2014規(guī)定的方法測定。首先將枇杷以與赤道垂直的方向均勻地切成兩半，得到正反兩半的枇杷樣品。分別壓碎后經(jīng)紗布過濾擠汁，用一次性滴管滴到折射儀鏡面上，重復(fù)測量3次，讀數(shù)并記錄結(jié)果，取3次結(jié)果的平均值作為一半枇杷樣品的糖度值。同一個枇杷樣品正反兩半會得到2個糖度值，將這2個值進行平均，得到的平均值即為該樣品的實測糖度值。

1.3.3 光譜預(yù)處理及特征波長提取

1.3.3.1 光譜預(yù)處理

光譜儀獲取的枇杷樣本的原始光譜中除了含有有效的信息外，同時還含有背景信息和噪聲等，通過預(yù)處理可以校正后者對模型性能的影響。本實驗對原始光譜的預(yù)處理是在MATLAB R2016b軟件中采用標準正態(tài)變換(standard normal variation，SNV)和多元散射校正(multi-scatter calibration，MSC)的方法[18-19]執(zhí)行的。

1.3.3.2 特征波長提取

全光譜數(shù)據(jù)量非常龐大且數(shù)據(jù)之間存在嚴重的共線性問題，這對模型的運算速度有很大的影響。本實驗采用SPA和CARS提取特征波長，提升模型的運算效率[20-21]。SPA是一種前向變量選擇算法，通過在全光譜中找尋具有最低限度冗余的光譜信息變量集，使得矢量空間共線性最小化。本實驗中預(yù)先設(shè)置選擇的變量數(shù)范圍為0～30，在該范圍內(nèi)根據(jù)預(yù)測集最低的均方根誤差確定了18個特征波長。CARS是一種將回歸系數(shù)作為變量重要性指標的特征變量選擇方法。該方法依靠指數(shù)衰減函數(shù)和自適應(yīng)重加權(quán)采樣技術(shù)優(yōu)選出每一次循環(huán)所構(gòu)建的偏最小二乘模型中回歸系數(shù)絕對值最大的變量點，經(jīng)過多次重復(fù)選擇，交互驗證偏最小二乘模型中均方根誤差最小的子集選為最優(yōu)變量子集。本實驗中將其蒙特卡洛采樣次數(shù)設(shè)置為50次，篩選出的最優(yōu)波長集中含有23個特征波長。特征光譜的提取在MATLAB R2016b軟件中執(zhí)行。

1.3.4 建模方法及模型評價

本文分別基于原始全光譜、經(jīng)預(yù)處理后的全光譜和特征光譜數(shù)據(jù)構(gòu)建了預(yù)測枇杷糖度的主成分回歸(principal component regression，PCR)、偏最小二乘回歸(partial least square regression,PLSR)和多元線性回歸(multi linear regression，MLR)模型。PCR是一種僅對自變量進行主成分分析，然后以主成分替換原自變量后再與因變量進行多元線性回歸的方法。PLSR方法是光譜分析中應(yīng)用最普遍的化學(xué)計量方法，它是一種同時對自變量和因變量進行主成分分析的多元線性回歸分析方法[22]。在MLR中，當(dāng)有m個自變量X(光譜數(shù)據(jù))，即X1，X2，X3，…，Xm，則自變量X和因變量Y(糖度實測值)之間的線性回歸方程為：

Y=β0+β1X1+...+βmXm+ε

設(shè)觀察值為{(Yi，Xi1，…，Xim)，i=1，2，…，n}，則多元線性回歸方程如下：

本文采用校正集的相關(guān)系數(shù)(RC)及其均方根誤差(root mean square error of calibration，RMSEC)，預(yù)測集的相關(guān)系數(shù)(RP)及其均方根誤差(root mean square error of prediction，RMSEP)，以及剩余預(yù)測偏差(residual predictive deviation，RPD)作為模型性能的評價指標。若RPD<1.4，證明構(gòu)建的檢測模型無法完成預(yù)測；1.4≤RPD<1.8，則模型僅可粗略地預(yù)測；1.8≤RPD<2.0，證明模型可進行相對較好的預(yù)測；RPD≥2，證明模型可以完成非常好的預(yù)測[23]。數(shù)據(jù)處理在MATLAB R2016b軟件中執(zhí)行。

2 結(jié)果與分析

2.1 糖度統(tǒng)計分析

基于光纖光譜儀獲取的光譜數(shù)據(jù)和折射儀測定的實際糖度值，按照樣本集劃分的評判標準[24](校正樣本集中糖度值的范圍比預(yù)測樣本集的范圍寬)將120個枇杷樣本劃分為校正樣本集和預(yù)測樣本集。本實驗根據(jù)光譜-理化值共生距離法[25]將120個枇杷樣本按照3∶1的比例劃分90個為校正集以及30個為預(yù)測集。由表1可以看出，校正集中的糖度值范圍大于預(yù)測集中糖度值的范圍，這樣劃分的樣本集有利于準確、穩(wěn)健模型的構(gòu)建。

表1 校正集和預(yù)測集中枇杷糖度統(tǒng)計結(jié)果
Table 1 Statistics results of the sugar content of loquat in calibration and prediction set

2.2 反射光譜及預(yù)處理

原始光譜中存在各種因素影響數(shù)據(jù)的準確性，比如采集光譜時光源強度分布不均勻、枇杷樣本自身形狀不規(guī)則等，特別是在原始光譜的首末兩端會含有更多的噪聲，選擇400～1 000 nm波段作為有效原始光譜區(qū)域，本區(qū)域共包含785個波段。選定有效原始光譜區(qū)域后，為了進一步消除目標信息和噪聲帶來的干擾，本文在建立模型之前分別采用SNV和MSC對有效原始光譜數(shù)據(jù)進行預(yù)處理。圖3為枇杷樣本的原始反射光譜(圖3-a)以及經(jīng)過SNV(圖3-b)、MSC(圖3-c)預(yù)處理后的相對反射光譜。由圖3可以看出，所有光譜曲線的波形呈現(xiàn)出相同的趨勢，在波長675 nm附近有一個較為明顯的吸收峰，這可能是由葉綠素的吸收產(chǎn)生的；在980 nm附近也有一個吸收峰，這可能與枇杷果實中水的吸收有關(guān)系，體現(xiàn)出枇杷水分含量的信息。

2.3 基于全光譜的建模結(jié)果

為了定量分析枇杷的糖度，分別基于原始全光譜和預(yù)處理全光譜數(shù)據(jù)建立了PCR和PLSR預(yù)測枇杷糖度的模型，如表2所示。由表2可以看出，經(jīng)過SNV和MSC預(yù)處理后建立的PCR和PLSR模型的RC、RP和RPD均比未經(jīng)過預(yù)處理的原始光譜建模的RC、RP和RPD高，對于RMSEC和RMSEP來說，也是經(jīng)過預(yù)處理后建模的誤差小，這說明原始光譜經(jīng)過預(yù)處理后模型效果和精度得到了提高；對比2種預(yù)處理方法，可以發(fā)現(xiàn)經(jīng)過SNV預(yù)處理后的建模效果要好于經(jīng)過MSC預(yù)處理的建模效果；比較PCR和PLSR 2種建模方法，得出PCR模型的性能要優(yōu)于PLSR模型。由此可見，對原始光譜進行預(yù)處理是尤為必要的。

a-原始光譜；b-SNV預(yù)處理后光譜;c-MSC預(yù)處理后光譜
圖3 枇杷樣本的反射光譜
Fig.3 Reflectance spectra of loquat

表2 PCR和PLSR模型對枇杷糖度的預(yù)測結(jié)果
Table 2 Sugar content prediction results of loquat by PCR and PLSR model

2.4 光譜數(shù)據(jù)降維

原始光譜數(shù)據(jù)量龐繁，影響模型的運算效率。本文采用SPA和CARS 2種方法提取特征變量來改善模型的性能，并且對2種特征波長的提取方法進行比較，進而擇優(yōu)篩選特征波長提取方法。

2.4.1 采用SPA提取特征波長

采用SPA方法進行特征變量的篩選時，通常選取預(yù)測模型的均方根誤差的最小值來確定特征變量數(shù)。圖4給出了均方根誤差隨SPA中有效變量數(shù)的變化規(guī)律。由圖4可以看出，均方根誤差隨著有效變量數(shù)的增加而減小，但是當(dāng)有效變量數(shù)大于18以后，均方根誤差基本不再減小。因此本實驗中選擇了18個波長(占總波長量的2.29%)作為特征變量，這18個變量分別為：400.0、402.4、407.2、409.6、427.8、441.3、480.8、553.7、642.1、676.7、689.8、700.5、704.3、709.6、712.7、758.4、907.3、978.4，單位均為nm。

圖4 均方根誤差隨SPA中有效波長數(shù)的變化規(guī)律
Fig.4 Variation regulation of RMSE with the number of effective wavelengths in SPA

2.4.2 采用CARS選取特征波長

本實驗采用CARS選取特征變量時，設(shè)定其蒙特卡洛采樣次數(shù)為50次，根據(jù)五折交叉驗證方法計算所構(gòu)建的偏最小二乘模型的交叉驗證均方根誤差篩選出最優(yōu)變量子集。圖5給出了不同采樣次數(shù)下交叉驗證均方根誤差的變化規(guī)律，可以發(fā)現(xiàn)在第30次采樣時獲得的交叉驗證均方根誤差具有最小值，該最優(yōu)變量子集包含了23個特征波長(占總波長量的2.93%)，這23個特征變量分別為：423.9、448.4、449.2、454.8、467.4、563.1、576.3、616.6、704.3、786.4、814.4、815.1、863.2、902.8、937、951.8、952.6、960、960.7、977、980.6、984.3、996.9，單位均為nm。

2.5 基于特征波長的建模結(jié)果

本文分別將基于SPA和CARS 2種特征波長提取方法獲得的特征變量作為自變量，枇杷糖度的實測值作為因變量，構(gòu)建了預(yù)測開陽枇杷糖度的MLR檢測模型。通過特征變量構(gòu)建的MLR模型對枇杷糖度的預(yù)測結(jié)果如表3所示。由表3結(jié)果可以看出，CARS-MLR模型的RC(0.89)和RP(0.89)高于SPA-MLR模型的RC(0.79)和RP(0.88)，并且CARS-MLR模型的RMSEC(0.62)和RMSEP(0.65)低于SPA-MLR模型的RMSEC(0.81)和RMSEP(0.74)，這說明CARS-MLR枇杷糖度預(yù)測模型的性能優(yōu)于SPA-MLR模型。對比表2中基于全光譜建立的PCR和PLSR模型預(yù)測枇杷糖度的結(jié)果，可以看出基于特征變量構(gòu)建的CARS-MLR模型的RC(0.89)和RP(0.89)均高于6種基于全光譜構(gòu)建模型的RC和RP，并且前者的RMSEC(0.62)和RMSEP(0.65)也低于后者的，這證明經(jīng)過CARS降維后，不僅模型的運行效率大大提升，而且模型的校正性能和預(yù)測性能也都得到了改善。另外，CARS-MLR模型的RPD=2.29，進一步證明模型可以完成非常好的預(yù)測。綜合以上表述，可以得出基于特征變量建立的CARS-MLR預(yù)測模型對開陽枇杷糖度具有非常好的預(yù)測能力。圖6為CARS-MLR模型對枇杷糖度的檢測結(jié)果，預(yù)測值與實際值具有比較好的線性關(guān)系，只有少數(shù)樣本偏離回歸線較遠，CARS-MLR模型能夠很好地預(yù)測枇杷的糖度。

a-CARS中變量數(shù)量的變化；b-不同采樣次數(shù)下的交叉驗證均方根誤差；c-每次采樣中回歸系數(shù)的變化路徑
圖5 CARS算法提取特征波長的結(jié)果
Fig.5 Characteristic wavelengths selection from full spectra by CARS algorithm

表3 基于特征光譜建立的多元線性回歸模型對枇杷糖度的預(yù)測結(jié)果
Table 3 Sugar content prediction results of loquat by MLR model based on the characteristic spectra

圖6 枇杷糖度的實測值與預(yù)測值的相關(guān)性
Fig.6 The relativity of sugar content of loquat between the measured and predicted values

3 結(jié)論

為實現(xiàn)快速無損檢測水果品質(zhì)，對水果進行分級，進而提升水果的經(jīng)濟價值，本文以開陽富硒枇杷為研究對象，提出了一種基于可見/近紅外光譜結(jié)合化學(xué)計量學(xué)預(yù)測枇杷糖度的方法。首先，采用光纖光譜儀獲取枇杷樣本的光譜數(shù)據(jù)，并測定枇杷的實際糖度值。然后，提取樣品的光譜數(shù)據(jù)，采用SNV和MSC 2種方法對其進行預(yù)處理，并基于原始光譜和經(jīng)預(yù)處理后的光譜建立預(yù)測枇杷糖度的PCR和PLSR模型。最后，利用SPA和CARS方法從全光譜中優(yōu)選出特征波長，并基于特征波長建立預(yù)測枇杷糖度的SPA-MLR和CARS-MLR模型。分析結(jié)果可知，經(jīng)過預(yù)處理后建立的模型效果較基于原始光譜的模型好；基于特征變量建立的模型效率得到了很大的提升，且預(yù)測能力也優(yōu)于全光譜模型。本研究中CARS-MLR模型是最優(yōu)模型，其RPD=2.29，具有非常好的預(yù)測效果，表明采用可見/近紅外光譜技術(shù)結(jié)合化學(xué)計量學(xué)方法建立枇杷糖度的預(yù)測模型是可行的。

關(guān)鍵字：優(yōu)秀論文

上一篇：高效液相色譜法測定植物油料油脂中生育酚含量
下一篇：基于近紅外光譜和支持向量機回歸參數(shù)調(diào)優(yōu)的羊肉含水量檢測

欄目分類

熱門排行

推薦信息

期刊知識