基于可見/近紅外光譜預測枇杷糖度及模型優(yōu)化
枇杷的營養(yǎng)價值較為豐富,果實皮薄多汁,酸甜可口。我國貴州開陽是枇杷種植地之一,且開陽土壤富硒,使得開陽富硒枇杷深受歡迎[1]。但是,枇杷果實較為嬌貴,在采摘和貯藏的過程中,果實的品質就會下降,其中,糖含量的變化十分明顯。隨著枇杷果實呼吸作用的進行,糖含量會逐漸上升,這就會導致果實的甜酸度不佳,影響到枇杷的口感和風味,導致其經濟價值降低。
我國水果糖度的傳統(tǒng)檢測方法雖然準確性較高,但是具有破壞性,且效率低、耗時長[2];而依靠經驗主觀判斷水果品質又無統(tǒng)一標準,導致結果存在隨意性,對品質的分選不準確。因此,在水果品質的分選方面,無論是傳統(tǒng)的檢測方法還是個人經驗主觀判斷都造成了水果品質參差不齊,難以體現(xiàn)我國水果的市場競爭優(yōu)勢。開陽枇杷是貴州的特色水果,對其果實進行質量分級能夠精準定位其市場價格,同時維護好開陽枇杷的區(qū)域品牌地位。由此可見,建立一套快速無損的枇杷果實的糖度檢測方法對于監(jiān)控其品質、指導市場價格具有實際意義。
基于精密光譜檢測儀器的研發(fā)和化學計量學的飛速發(fā)展,以及光譜技術具有的可實現(xiàn)無損檢測的優(yōu)勢,光譜技術在水果品質的檢測中得到十分廣泛的應用。國內外研究學者利用光譜技術開展了諸多水果品質的研究[2-13]。其中,薄皮水果糖度或者可溶性固形物含量的無損檢測研究較多,比如獼猴桃[2-3]、蘋果[4-5]、荔枝[6]、藍莓[7-8]、梨[9]和李子[10]等。厚皮瓜果類水果因其尺寸大且不同部位果皮厚度不一,光譜技術獲取表皮下果肉的信息就會有差異,這必然影響模型的預測能力?;诠庾V技術檢測厚皮水果內部品質的研究較薄皮水果的少,但是也不乏很多優(yōu)秀的研究團隊對網紋瓜的可溶性固形物[11]、小西瓜的糖度[12-13]、甜瓜的糖度[14]、河套蜜瓜的糖度[15]、麒麟西瓜的糖度[16-17]等進行了研究。采用光譜技術對各類水果內部品質的研究已經較為全面,但基于光纖光譜技術檢測枇杷糖度的研究鮮有報道。
本文通過光纖光譜儀采集開陽枇杷6個不同部位的反射光譜,對采集到的原始光譜進行平均,得到原始平均光譜,并對其進行預處理,探尋最優(yōu)的預處理方法;然后分別基于原始全光譜和預處理后的全光譜構建枇杷糖度預測模型,并比較不同模型的優(yōu)劣;最后分別運用連續(xù)投影算法(successive projection algorithm,SPA)以及競爭性自適應重加權算法(competitive adaptive reweighted sampling,CARS)提取特征光譜,再基于特征光譜和測得的參考值構建預測開陽枇杷糖度的多元線性回歸模型,依據預測效果得到最優(yōu)模型,以期為枇杷品質的無損快檢和分選提供理論依據與技術基礎。
1 材料與方法
1.1 實驗材料
開陽富硒枇杷來自貴州省貴陽市開陽縣禾豐鄉(xiāng)枇杷果園,于2021年5月23日采摘并挑選無病蟲害且無機械損傷的枇杷果共120個。樣品采摘后立即帶回實驗室,并在室溫[(22±2) ℃]條件下進行實驗。實驗前用軟紙輕輕地擦掉枇杷表面的雜物,對其依次編號后采集光譜以及測定糖度。
1.2 儀器與設備
(ATAGO PAL-α)折射儀,日本Atago公司,檢測范圍:0.0~85 °Brix,檢測精度:±0.2 °Brix。光纖光譜儀,蔚海光學儀器(上海)有限公司,該系統(tǒng)主要由:QEPro光譜儀(分辨率:2.84~3 nm)、R600-7-VIS-125F光纖(直徑600 μm)、HL-2000鹵鎢燈光源(波長范圍:360~2 400 nm)、反射探頭支架、適配器、標準反射白板以及計算機等構成。系統(tǒng)結構如圖1所示,其中系統(tǒng)的積分時間為110 ms,掃描平均次數是8,滑動平均寬度是1,光譜采集范圍為360~1 006.4 nm,此光譜區(qū)間共有844個波段。

圖1 光纖光譜儀框圖
Fig.1 The diagram of fiber-optic spectrometer
1.3 實驗方法
1.3.1 反射光譜采集
將待測枇杷樣品緊貼在反射探頭支架表面上(利用適配器將光纖探頭固定在反射探頭支架上,光纖探頭距離反射探頭支架表面約1 cm),光譜采集部位如圖2所示,分別在每個樣品正(①、②、③)反(④、⑤、⑥)兩面果實的花萼、赤道、果蒂附近,3個部位采集信息,每個果實采集到6個光譜,將這6個光譜進行平均,以平均值作為該樣品的原始光譜數據。

圖2 枇杷光譜采集位置
Fig.2 The reflectance spectra collected in the region of loquat
1.3.2 糖度的測定
在完成光譜采集后,枇杷糖度采用折射儀按照NT/T 2637—2014規(guī)定的方法測定。首先將枇杷以與赤道垂直的方向均勻地切成兩半,得到正反兩半的枇杷樣品。分別壓碎后經紗布過濾擠汁,用一次性滴管滴到折射儀鏡面上,重復測量3次,讀數并記錄結果,取3次結果的平均值作為一半枇杷樣品的糖度值。同一個枇杷樣品正反兩半會得到2個糖度值,將這2個值進行平均,得到的平均值即為該樣品的實測糖度值。
1.3.3 光譜預處理及特征波長提取
1.3.3.1 光譜預處理
光譜儀獲取的枇杷樣本的原始光譜中除了含有有效的信息外,同時還含有背景信息和噪聲等,通過預處理可以校正后者對模型性能的影響。本實驗對原始光譜的預處理是在MATLAB R2016b軟件中采用標準正態(tài)變換(standard normal variation,SNV)和多元散射校正(multi-scatter calibration,MSC)的方法[18-19]執(zhí)行的。
1.3.3.2 特征波長提取
全光譜數據量非常龐大且數據之間存在嚴重的共線性問題,這對模型的運算速度有很大的影響。本實驗采用SPA和CARS提取特征波長,提升模型的運算效率[20-21]。SPA是一種前向變量選擇算法,通過在全光譜中找尋具有最低限度冗余的光譜信息變量集,使得矢量空間共線性最小化。本實驗中預先設置選擇的變量數范圍為0~30,在該范圍內根據預測集最低的均方根誤差確定了18個特征波長。CARS是一種將回歸系數作為變量重要性指標的特征變量選擇方法。該方法依靠指數衰減函數和自適應重加權采樣技術優(yōu)選出每一次循環(huán)所構建的偏最小二乘模型中回歸系數絕對值最大的變量點,經過多次重復選擇,交互驗證偏最小二乘模型中均方根誤差最小的子集選為最優(yōu)變量子集。本實驗中將其蒙特卡洛采樣次數設置為50次,篩選出的最優(yōu)波長集中含有23個特征波長。特征光譜的提取在MATLAB R2016b軟件中執(zhí)行。
1.3.4 建模方法及模型評價
本文分別基于原始全光譜、經預處理后的全光譜和特征光譜數據構建了預測枇杷糖度的主成分回歸(principal component regression,PCR)、偏最小二乘回歸(partial least square regression,PLSR)和多元線性回歸(multi linear regression,MLR)模型。PCR是一種僅對自變量進行主成分分析,然后以主成分替換原自變量后再與因變量進行多元線性回歸的方法。PLSR方法是光譜分析中應用最普遍的化學計量方法,它是一種同時對自變量和因變量進行主成分分析的多元線性回歸分析方法[22]。在MLR中,當有m個自變量X(光譜數據),即X1,X2,X3,…,Xm,則自變量X和因變量Y(糖度實測值)之間的線性回歸方程為:
Y=β0+β1X1+...+βmXm+ε
設觀察值為{(Yi,Xi1,…,Xim),i=1,2,…,n},則多元線性回歸方程如下:

本文采用校正集的相關系數(RC)及其均方根誤差(root mean square error of calibration,RMSEC),預測集的相關系數(RP)及其均方根誤差(root mean square error of prediction,RMSEP),以及剩余預測偏差(residual predictive deviation,RPD)作為模型性能的評價指標。若RPD<1.4,證明構建的檢測模型無法完成預測;1.4≤RPD<1.8,則模型僅可粗略地預測;1.8≤RPD<2.0,證明模型可進行相對較好的預測;RPD≥2,證明模型可以完成非常好的預測[23]。數據處理在MATLAB R2016b軟件中執(zhí)行。
2 結果與分析
2.1 糖度統(tǒng)計分析
基于光纖光譜儀獲取的光譜數據和折射儀測定的實際糖度值,按照樣本集劃分的評判標準[24](校正樣本集中糖度值的范圍比預測樣本集的范圍寬)將120個枇杷樣本劃分為校正樣本集和預測樣本集。本實驗根據光譜-理化值共生距離法[25]將120個枇杷樣本按照3∶1的比例劃分90個為校正集以及30個為預測集。由表1可以看出,校正集中的糖度值范圍大于預測集中糖度值的范圍,這樣劃分的樣本集有利于準確、穩(wěn)健模型的構建。
表1 校正集和預測集中枇杷糖度統(tǒng)計結果
Table 1 Statistics results of the sugar content of loquat in calibration and prediction set

2.2 反射光譜及預處理
原始光譜中存在各種因素影響數據的準確性,比如采集光譜時光源強度分布不均勻、枇杷樣本自身形狀不規(guī)則等,特別是在原始光譜的首末兩端會含有更多的噪聲,選擇400~1 000 nm波段作為有效原始光譜區(qū)域,本區(qū)域共包含785個波段。選定有效原始光譜區(qū)域后,為了進一步消除目標信息和噪聲帶來的干擾,本文在建立模型之前分別采用SNV和MSC對有效原始光譜數據進行預處理。圖3為枇杷樣本的原始反射光譜(圖3-a)以及經過SNV(圖3-b)、MSC(圖3-c)預處理后的相對反射光譜。由圖3可以看出,所有光譜曲線的波形呈現(xiàn)出相同的趨勢,在波長675 nm附近有一個較為明顯的吸收峰,這可能是由葉綠素的吸收產生的;在980 nm附近也有一個吸收峰,這可能與枇杷果實中水的吸收有關系,體現(xiàn)出枇杷水分含量的信息。
2.3 基于全光譜的建模結果
為了定量分析枇杷的糖度,分別基于原始全光譜和預處理全光譜數據建立了PCR和PLSR預測枇杷糖度的模型,如表2所示。由表2可以看出,經過SNV和MSC預處理后建立的PCR和PLSR模型的RC、RP和RPD均比未經過預處理的原始光譜建模的RC、RP和RPD高,對于RMSEC和RMSEP來說,也是經過預處理后建模的誤差小,這說明原始光譜經過預處理后模型效果和精度得到了提高;對比2種預處理方法,可以發(fā)現(xiàn)經過SNV預處理后的建模效果要好于經過MSC預處理的建模效果;比較PCR和PLSR 2種建模方法,得出PCR模型的性能要優(yōu)于PLSR模型。由此可見,對原始光譜進行預處理是尤為必要的。

a-原始光譜;b-SNV預處理后光譜;c-MSC預處理后光譜
圖3 枇杷樣本的反射光譜
Fig.3 Reflectance spectra of loquat
表2 PCR和PLSR模型對枇杷糖度的預測結果
Table 2 Sugar content prediction results of loquat by PCR and PLSR model

2.4 光譜數據降維
原始光譜數據量龐繁,影響模型的運算效率。本文采用SPA和CARS 2種方法提取特征變量來改善模型的性能,并且對2種特征波長的提取方法進行比較,進而擇優(yōu)篩選特征波長提取方法。
2.4.1 采用SPA提取特征波長
采用SPA方法進行特征變量的篩選時,通常選取預測模型的均方根誤差的最小值來確定特征變量數。圖4給出了均方根誤差隨SPA中有效變量數的變化規(guī)律。由圖4可以看出,均方根誤差隨著有效變量數的增加而減小,但是當有效變量數大于18以后,均方根誤差基本不再減小。因此本實驗中選擇了18個波長(占總波長量的2.29%)作為特征變量,這18個變量分別為:400.0、402.4、407.2、409.6、427.8、441.3、480.8、553.7、642.1、676.7、689.8、700.5、704.3、709.6、712.7、758.4、907.3、978.4,單位均為nm。

圖4 均方根誤差隨SPA中有效波長數的變化規(guī)律
Fig.4 Variation regulation of RMSE with the number of effective wavelengths in SPA
2.4.2 采用CARS選取特征波長
本實驗采用CARS選取特征變量時,設定其蒙特卡洛采樣次數為50次,根據五折交叉驗證方法計算所構建的偏最小二乘模型的交叉驗證均方根誤差篩選出最優(yōu)變量子集。圖5給出了不同采樣次數下交叉驗證均方根誤差的變化規(guī)律,可以發(fā)現(xiàn)在第30次采樣時獲得的交叉驗證均方根誤差具有最小值,該最優(yōu)變量子集包含了23個特征波長(占總波長量的2.93%),這23個特征變量分別為:423.9、448.4、449.2、454.8、467.4、563.1、576.3、616.6、704.3、786.4、814.4、815.1、863.2、902.8、937、951.8、952.6、960、960.7、977、980.6、984.3、996.9,單位均為nm。
2.5 基于特征波長的建模結果
本文分別將基于SPA和CARS 2種特征波長提取方法獲得的特征變量作為自變量,枇杷糖度的實測值作為因變量,構建了預測開陽枇杷糖度的MLR檢測模型。通過特征變量構建的MLR模型對枇杷糖度的預測結果如表3所示。由表3結果可以看出,CARS-MLR模型的RC(0.89)和RP(0.89)高于SPA-MLR模型的RC(0.79)和RP(0.88),并且CARS-MLR模型的RMSEC(0.62)和RMSEP(0.65)低于SPA-MLR模型的RMSEC(0.81)和RMSEP(0.74),這說明CARS-MLR枇杷糖度預測模型的性能優(yōu)于SPA-MLR模型。對比表2中基于全光譜建立的PCR和PLSR模型預測枇杷糖度的結果,可以看出基于特征變量構建的CARS-MLR模型的RC(0.89)和RP(0.89)均高于6種基于全光譜構建模型的RC和RP,并且前者的RMSEC(0.62)和RMSEP(0.65)也低于后者的,這證明經過CARS降維后,不僅模型的運行效率大大提升,而且模型的校正性能和預測性能也都得到了改善。另外,CARS-MLR模型的RPD=2.29,進一步證明模型可以完成非常好的預測。綜合以上表述,可以得出基于特征變量建立的CARS-MLR預測模型對開陽枇杷糖度具有非常好的預測能力。圖6為CARS-MLR模型對枇杷糖度的檢測結果,預測值與實際值具有比較好的線性關系,只有少數樣本偏離回歸線較遠,CARS-MLR模型能夠很好地預測枇杷的糖度。

a-CARS中變量數量的變化;b-不同采樣次數下的交叉驗證均方根誤差;c-每次采樣中回歸系數的變化路徑
圖5 CARS算法提取特征波長的結果
Fig.5 Characteristic wavelengths selection from full spectra by CARS algorithm
表3 基于特征光譜建立的多元線性回歸模型 對枇杷糖度的預測結果
Table 3 Sugar content prediction results of loquat by MLR model based on the characteristic spectra


圖6 枇杷糖度的實測值與預測值的相關性
Fig.6 The relativity of sugar content of loquat between the measured and predicted values
3 結論
為實現(xiàn)快速無損檢測水果品質,對水果進行分級,進而提升水果的經濟價值,本文以開陽富硒枇杷為研究對象,提出了一種基于可見/近紅外光譜結合化學計量學預測枇杷糖度的方法。首先,采用光纖光譜儀獲取枇杷樣本的光譜數據,并測定枇杷的實際糖度值。然后,提取樣品的光譜數據,采用SNV和MSC 2種方法對其進行預處理,并基于原始光譜和經預處理后的光譜建立預測枇杷糖度的PCR和PLSR模型。最后,利用SPA和CARS方法從全光譜中優(yōu)選出特征波長,并基于特征波長建立預測枇杷糖度的SPA-MLR和CARS-MLR模型。分析結果可知,經過預處理后建立的模型效果較基于原始光譜的模型好;基于特征變量建立的模型效率得到了很大的提升,且預測能力也優(yōu)于全光譜模型。本研究中CARS-MLR模型是最優(yōu)模型,其RPD=2.29,具有非常好的預測效果,表明采用可見/近紅外光譜技術結合化學計量學方法建立枇杷糖度的預測模型是可行的。
- 2025年中科院分區(qū)表已公布!Scientific Reports降至三區(qū)
- 官方認定!CSSCI南大核心首批191家“青年學者友好期刊名單”
- 2023JCR影響因子正式公布!
- 國內核心期刊分級情況概覽及說明!本篇適用人群:需要發(fā)南核、北核、CSCD、科核、AMI、SCD、RCCSE期刊的學者
- 我用了一個很復雜的圖,幫你們解釋下“23版最新北大核心目錄有效期問題”。
- 重磅!CSSCI來源期刊(2023-2024版)最新期刊目錄看點分析!全網首發(fā)!
- CSSCI官方早就公布了最新南核目錄,有心的人已經拿到并且投入使用!附南核目錄新增期刊!
- 北大核心期刊目錄換屆,我們應該熟知的10個知識點。
- 注意,最新期刊論文格式標準已發(fā)布,論文寫作規(guī)則發(fā)生重大變化!文字版GB/T 7713.2—2022 學術論文編寫規(guī)則
- 盤點那些評職稱超管用的資源,1,3和5已經“絕種”了