基于人眼視覺規(guī)律的注視點分類及其在圖像標(biāo)注中的應(yīng)用
圖像標(biāo)注廣泛應(yīng)用于計算機視覺領(lǐng)域,如物體檢測、識別等[1-4]。傳統(tǒng)圖像標(biāo)注通常由標(biāo)注人員手動繪制目標(biāo)物體邊界框,存在效率低、成本高的問題。據(jù)統(tǒng)計,在Mechanical Turk上對ImageNet進行大規(guī)模標(biāo)注時,繪制邊界框耗費的時間中位數(shù)為25.5 s。此外,還需要對標(biāo)注人員進行相關(guān)培訓(xùn)[5-6]。
生物學(xué)研究表明,人類的視覺系統(tǒng)存在選擇性注意機制[7]。目前,針對眼動規(guī)律與目標(biāo)識別關(guān)系的相關(guān)研究結(jié)果表明,在任務(wù)驅(qū)動型眼動過程中,相較于背景,人眼注視點會更多地停留在與任務(wù)相關(guān)的圖像目標(biāo)中[8-10]。基于上述研究結(jié)果,利用人眼在觀測標(biāo)注目標(biāo)過程中的注視點規(guī)律,自動確定目標(biāo)物體邊界框,能有效提高標(biāo)注效率,降低標(biāo)注成本[11-12]。DIMITRIOS P等提出的眼動圖像標(biāo)注算法[11]就是此類應(yīng)用領(lǐng)域的一個經(jīng)典算法[13]。該方法將目標(biāo)標(biāo)注問題建模為一個目標(biāo)和背景的分類問題。首先提取眼動注視點和背景分別所在的超像素塊的相關(guān)眼動特征和圖像外觀[14]、似物性特征[15]等,構(gòu)建一個支持向量機(Support Vector Machine, SVM)超像素塊分類模型,實現(xiàn)標(biāo)注目標(biāo)邊界框的初定位;然后采用似GrabCut能量模型[14]進行目標(biāo)邊界框精定位。該算法只需使用較少的數(shù)據(jù)(7%)訓(xùn)練標(biāo)注模型,標(biāo)注一幅圖片平均僅需2 s。
標(biāo)定過程中采集的眼動數(shù)據(jù)中包含標(biāo)定目標(biāo)的位置先驗線索,利用這些線索能有效提高后續(xù)標(biāo)定精度。但是,首先眼動過程中存在的固有抖動和眨動,使眼動數(shù)據(jù)中容易引入噪聲;另外,眼動圖像目標(biāo)標(biāo)注這類任務(wù)驅(qū)動型眼動過程是一個自底向上和自頂而下相互交互的復(fù)雜認(rèn)知過程[11,16]。研究表明,人眼更容易關(guān)注動物、人之類的活動目標(biāo),也容易停留在顯著的非目標(biāo)對象或背景對象上,因此目前提取和標(biāo)注任務(wù)相關(guān)的眼動信息仍然是一個研究難點。目前DIMITRIOS P等提出的眼動圖像標(biāo)注算法利用所有注視點定位標(biāo)注目標(biāo),停留在非目標(biāo)上的注視點容易引入干擾因素,存在算法精度不高的問題。文獻[10,17]采用熱力圖去除離群點算法提取和識別任務(wù)相關(guān)的注視點,但是該方法以每一個注視點為中心累加二維高斯函數(shù),通過設(shè)置閾值將離群注視點濾除,未能有效地適應(yīng)注視點通常以線狀而非球狀呈現(xiàn)這一空間特征,并且高斯函數(shù)計算量大、方差難以確定,因此存在運行效率低、閾值設(shè)置困難等問題。另外,這些算法主要應(yīng)用在目標(biāo)檢測領(lǐng)域,文獻[10]雖然提到目標(biāo)標(biāo)注問題,但是也是以現(xiàn)有圖像目標(biāo)檢測結(jié)果為基礎(chǔ),輔助眼動數(shù)據(jù)減少漏標(biāo)注,與經(jīng)典的DIMITRIOS P眼動圖像標(biāo)注算法思路不一致。
國內(nèi)已有針對駕駛過程中的注視序列[18-19]以及人機交互過程中的注視序列[20-21]的研究,但均不能適用于圖片標(biāo)注研究領(lǐng)域。在目標(biāo)導(dǎo)向、任務(wù)驅(qū)動的圖像標(biāo)注過程中,人眼視覺由“預(yù)注意”和“注意”兩個階段組成[22-23],被稱為人眼視覺的“搜索”和“識別”[16],前者的凝視點不在目標(biāo)上,而后者的凝視點在目標(biāo)上。準(zhǔn)確提取眼動識別階段的注視點是提高眼動圖像標(biāo)注定位精度的關(guān)鍵。鑒于此,本文擬從探索圖像目標(biāo)標(biāo)注這一任務(wù)驅(qū)動下的眼動規(guī)律入手,設(shè)計注視點分類模型。首先研究圖像標(biāo)注過程中眼動注視點在時間、空間維度上的眼動規(guī)律,然后結(jié)合眼動規(guī)律,提出基于參數(shù)自適應(yīng)的DBSCAN(Density-Based Spatial Clustering of Applications with Noise)[24]算法將人眼注視序列中注視點自動分類為視覺搜索和視覺識別兩個類別,旨在將提取的眼動識別階段注視點作為圖像標(biāo)注算法的輸入,提高標(biāo)注精度。
2 搜索和識別兩階段的眼動規(guī)律
為了探究隸屬于視覺識別和視覺搜索階段注視點的規(guī)律,本文選取2014 DIMITRIOS P數(shù)據(jù)集[11,25]當(dāng)中的包含單目標(biāo)的圖片開展眼動規(guī)律實驗研究。該數(shù)據(jù)集選取Pascal VOC2012數(shù)據(jù)集中的10類目標(biāo),共6 270幅圖片,其中單目標(biāo)圖片共5 104幅圖。這10類目標(biāo)分別為貓/狗、自行車/摩托車、飛機/船、牛/馬以及沙發(fā)/餐桌。5位受試者眼動標(biāo)注過程中的眼動數(shù)據(jù)采用Eyelink 2 000眼動儀采集,采樣頻率為1 000 Hz。眼動數(shù)據(jù)格式用F=(xi,yi,t_starti,t_endi)Ni=1表示,其中x,y表示坐標(biāo)(單位:像素),t_start,t_end分別記錄為注視點的開始時間戳和結(jié)束時間戳(單位:ms),可通過t_end?t_start計算得到注視點的持續(xù)時間。每個目標(biāo)的標(biāo)注真值框由數(shù)據(jù)集提供。圖1為摩托車目標(biāo)圖像,5位受試者的眼動注視數(shù)據(jù)使用不同顏色繪制,目標(biāo)標(biāo)注真值框使用綠色標(biāo)識。
圖1 數(shù)據(jù)集展示
Fig.1 Data set presentation
下載: 原圖 | 高精圖 | 低精圖
針對標(biāo)注目標(biāo)i(1≤i≤10),5位受試者標(biāo)注過程中的眼動注視點集合為Ui。定義實驗中視覺搜索和視覺識別兩階段注視點的量化判定標(biāo)準(zhǔn)如下:若注視點落在目標(biāo)物體i的標(biāo)注真值框B內(nèi),則屬于視覺識別階段注視點集合Ri,反之屬于視覺搜索階段注視點集合Si,即Ui=Ri?Si。具體如圖2所示。
圖2 視覺搜索-識別階段注視點的量化標(biāo)準(zhǔn)示意圖
Fig.2 Visual search and recognition fixations
下載: 原圖 | 高精圖 | 低精圖
針對10類標(biāo)注目標(biāo),從注視點分布占比率、注視持續(xù)時間、注視空間聚集度3個角度探索兩個視覺階段的眼動規(guī)律。
(1) 兩階段注視點分布占比率對比
針對上述10類標(biāo)注目標(biāo),分別計算5位受試者眼動注視點集合Ri、Si中注視點數(shù)目占集合Ui中注視點總數(shù)目的比例:card(Ri)/card(Ui)、card(Si)/card(Ui)。
從圖3所示的計算結(jié)果可知,所有標(biāo)注目標(biāo)視覺識別階段的注視點分布占比明顯比視覺搜索階段高,其中8個目標(biāo)在視覺識別階段的注視點占比甚至超過70%。說明在標(biāo)注這類任務(wù)驅(qū)動的眼動過程中,人類的眼動注視點會明顯分布在標(biāo)注目標(biāo)附近。
圖3 不同標(biāo)注目標(biāo)的人眼注視點分布情況
Fig.3 Fixations distribution of different objects
下載: 原圖 | 高精圖 | 低精圖
(2) 兩階段注視點持續(xù)時間對比
針對標(biāo)注目標(biāo)i,將每一幅包含i的圖片當(dāng)中的人眼注視點歸類于集合Ri和集合Si,并計算兩階段的注視點持續(xù)時間均值。最后分別累加得到集合Ri和集合Si中相應(yīng)注視點的注視持續(xù)時間,研究二者占集合Ui所有注視點的持續(xù)時間總和的比例。
從圖4可知,在所有類別標(biāo)注目標(biāo)過程中,視覺識別階段注視點的注視持續(xù)時間明顯大于視覺搜索階段。標(biāo)注目標(biāo)“貓”的視覺識別階段與其視覺搜索階段的注視持續(xù)時間差異最顯著,目標(biāo)“船”的差異最小,但也有22.8%。所有目標(biāo)兩階段的持續(xù)時間占比差的平均值為58.5%。
圖4 不同標(biāo)注目標(biāo)的搜索-識別階段注視點的持續(xù)時間占比
Fig.4 Proportion of the duration of fixations in the search-recognition of different targets
下載: 原圖 | 高精圖 | 低精圖
(3) 兩階段注視點空間聚集度對比
針對視覺識別和視覺搜索兩個階段,分別按照式(1)和(2)計算標(biāo)注目標(biāo)i的眼動注視點集合Ri、Si中的眼動注視點空間位置歸一化點密度D(Ri)和D(Si):
D(Ri)=1Mi∑j=1MiRji/Ujiλji
, (1)
D(Si)=1Mi∑j=1MiSji/Uji1?λji
, (2)
式中:i表示標(biāo)注目標(biāo)類別,Mi表示第i類標(biāo)注目標(biāo)的圖片總數(shù),Rji和Sji分別表示第i類目標(biāo)中第j幅圖片的視覺識別階段注視點集合和視覺搜索階段注視點集合,λji表示第i類物體的第j幅圖片目標(biāo)框B的面積與圖片面積的比值。
繪制不同類別目標(biāo)物體的搜索、識別階段歸一化點密度,如圖5所示。視覺識別階段的注視點密度明顯高于視覺搜索階段的注視點密度。
圖5 不同標(biāo)注目標(biāo)的搜索-識別階段注視點的歸一化點密度
Fig.5 Normalized point density of fixations in the visual search-recognition of different targets
下載: 原圖 | 高精圖 | 低精圖
綜合上述實驗結(jié)果,可分析得出如下眼動規(guī)律:
(1)在眼動圖像標(biāo)注這類任務(wù)驅(qū)動的眼動過程中,眼動注視點會明顯落在標(biāo)注目標(biāo)上。因此以標(biāo)注者的眼動注視點位置為線索,能較準(zhǔn)確地初步定位標(biāo)注目標(biāo)位置。
(2)從眼動注視點的時間維度上看,視覺識別階段的注視點總的持續(xù)時間呈現(xiàn)明顯大于視覺搜索階段的趨勢。
(3)從眼動注視點的空間維度上看,視覺識別階段注視點在目標(biāo)內(nèi)部聚集,視覺搜索階段注視點在標(biāo)注目標(biāo)四周稀疏分布。
3 基于眼動規(guī)律的眼動注視點分類
實驗結(jié)果表明:在眼動標(biāo)注過程中,處于眼動搜索階段和眼動識別階段的注視點在空間聚集度和時間持續(xù)性兩個方面存在明顯的差別。因此本文提出基于眼動注視點空間和時間兩個維度特征的眼動注視點分類方法。在圖6(a)中紅色標(biāo)識的是該圖片標(biāo)注過程中一位受試者的所有注視點。為了有效分類注視點,首先在第一階段利用視覺識別階段存在的空間聚集度高的特點,提出基于參數(shù)自適應(yīng)的DBSCAN密度聚類算法,得到k個候選眼動識別階段注視點集。然后結(jié)合識別階段注視點持續(xù)時間長的特性,篩選出注視總時長最長的集合,將其中所包含的注視點分類為眼動識別注視點。算法流程示意圖和具體算法如圖6和表1所示。
圖6 視覺搜索-識別注視點劃分流程圖。(a)注視序列用紅點標(biāo)識,藍(lán)線相連;(b)、(c)聚類簇由綠色和粉紅色點標(biāo)識;(d)視覺搜索階段使用紅點標(biāo)識,視覺識別階段使用黃點標(biāo)識。
Fig.6 Framework of visual search-recognition fixations classification. (a) Fixation sequence marked with red dots and linked by blue lines; (b),(c) Different clusters marked with green and pink dots individually; (d) Visual search phase and visual recognition phase marked with the red and yellow dots correspondingly.
下載: 原圖 | 高精圖 | 低精圖
表1 視覺搜索-識別注視點劃分算法偽代碼
Tab.1 Visual search-recognition classification pseudocode
算法: 視覺搜索與識別注視點分類算法
輸入:圖像I,注視序列F=(xi,yi,t_starti,t_endi)Ni=1,參數(shù)α,β
輸出:視覺識別注視序列R,視覺搜索注視序列S
begin
//獲取自適應(yīng)參數(shù)
(W,H)=size(I)
Eps=max(W,H)/α
MinPts=N/β
//DBSCAN劃分聚類簇Ck以及離群點集合O
[Ck,O]=DBSCAN(F,Eps,MinPts)
//分類聚類簇,完成劃分
if k==0
R=?
S=F
else if k==1
R=Ck
S=O
else k>1
//Tk表示第k個簇Ck的注視點持續(xù)時間之和
k'=argmaxk=1,2,...kTk
R=Ck'
S=F?Ck'
end
end
下載: 導(dǎo)出CSV
表1算法中,關(guān)鍵的是第一步,即基于空間維度聚集特性的眼動識別階段注視點候選集的確定。傳統(tǒng)的聚類算法如k-means聚類或者高斯混合聚類算法,都是適合球形聚類簇。但是觀察發(fā)現(xiàn),眼動識別階段的注視點簇不一定滿足該形狀假設(shè)。DBSCAN算法[24]是一種基于密度且適應(yīng)任何形狀簇的經(jīng)典聚類算法,同時只需要迭代一次,具有聚類速度快的特點。但是算法中的兩個重要參數(shù)鄰域半徑Eps和鄰域密度閾值MinPts的設(shè)置對算法的執(zhí)行效果影響較大。本文結(jié)合標(biāo)注任務(wù)特點,通過分析發(fā)現(xiàn)了參數(shù)的如下特點:
(1)目標(biāo)標(biāo)注問題中聚類簇的鄰域半徑Eps與標(biāo)注目標(biāo)的尺寸有較明確的對應(yīng)關(guān)系。觀察發(fā)現(xiàn),標(biāo)注目標(biāo)尺寸占標(biāo)注圖片總尺寸的比例主要分布在5%~50%左右,因此定義Eps參數(shù)取值公式如公式(3)所示:
Eps=max(W,H)α
, (3)
式中:(W,H)表示標(biāo)注圖像I的寬度和高度,α取值可選范圍大致在3~7。
(2)鄰域密度閾值MinPts與停留在標(biāo)注目標(biāo)上的平均注視點數(shù)量有關(guān)。統(tǒng)計分析發(fā)現(xiàn),數(shù)據(jù)集中標(biāo)注目標(biāo)上的注視點數(shù)目占注視點總數(shù)比例分布在12.7%~29.3%之間?;诖?,定義MinPts參數(shù)取值公式如式(4)所示:
MinPts=Nβ
. (4)
其中:N表示當(dāng)前標(biāo)注圖像I中的注視點總數(shù)目,β可取值范圍大致在3~10。
圖7繪制了α、β取不同值時,眼動注視點分類的查準(zhǔn)率指標(biāo)結(jié)果。從圖7可知,分類準(zhǔn)確率對參數(shù)α的敏感程度更高,當(dāng)α取7、β在3~10之間時,查準(zhǔn)率基本穩(wěn)定在0.65~0.66之間。當(dāng)β取5時,查準(zhǔn)率相對最高。因此,自適應(yīng)參數(shù)設(shè)置為α=7,β=5。
圖7 參數(shù)取值情況
Fig.7 Parameter value situation
下載: 原圖 | 高精圖 | 低精圖
4 實驗與分析
本文針對標(biāo)注過程中的眼動序列,結(jié)合眼動規(guī)律提出算法將包含的眼動注視點分類到對應(yīng)的搜索階段和識別階段。本節(jié)將首先圍繞算法分類性能、算法執(zhí)行效率兩個方面開展對比分析,然后驗證本文算法對提高眼動圖像標(biāo)注精度的有效性。
實驗數(shù)據(jù)集:2014 DIMITRIOS P公共眼動數(shù)據(jù)集(10類目標(biāo),目標(biāo)物體占整幅圖片比小于30%,單目標(biāo)圖片共1 962幅),訓(xùn)練集和測試集比例為1∶9。
實驗硬件環(huán)境:第4代Intel Core i5 (3.3 GHz);8GB內(nèi)存;256 GB SSD;Matlab R2018b;操作系統(tǒng)為Win10 專業(yè)版。
4.1 視覺搜索和識別注視點分類相關(guān)實驗與分析
4.1.1 眼動注視點分類性能評估
本文提出將受試者眼動序列中的注視點分為視覺搜索和識別兩個階段,這個過程可看作一個二分類問題。因此,采用機器學(xué)習(xí)常用的查準(zhǔn)率P、查全率R和F1度量分?jǐn)?shù)來評估算法的分類性能,其中F1度量計算如式(5)所示:
F1=2×P×RP+R
. (5)
計算熱圖(Heatmap)算法[17]、基于固定參數(shù)的本文算法(DBSCAN)和基于自適應(yīng)參數(shù)的本文算法(Adaptive-DBSCAN)3種方法的查準(zhǔn)率P、查全率R和F1度量分?jǐn)?shù)。其中,Heatmap算法使用自適應(yīng)閾值,設(shè)置thr=mean(T)/12,T表示圖片內(nèi)注視點的注視持續(xù)時間之和;DBSCAN算法的參數(shù)設(shè)置為MinPts=2,Eps=65;本文的Adaptive-DBSCAN算法自適應(yīng)參數(shù)設(shè)置為α=7,β=5。計算結(jié)果如表2所示。
表2 眼動注視點分類結(jié)果對比
Tab.2 Comparison of the classification results of eye movement fixation points
方法 P R F1
Heatmap 0.61 0.876 0.71
DBSCAN 0.65 0.74 0.69
Adaptive-DBSCAN 0.65 0.881 0.75
下載: 導(dǎo)出CSV
從表2結(jié)果可知,DBSCAN方法相對于Heatmap方法,僅在查準(zhǔn)率方面有提升,但卻影響了查全率R和F1度量分?jǐn)?shù)。而本文提出的Adaptive-DBSCAN算法在查準(zhǔn)率、查全率和F1度量分?jǐn)?shù)均高于Heatmap算法。圖8給出了本文算法對標(biāo)注過程中眼動注視點的分類結(jié)果。從圖8可以看出當(dāng)注視序列符合“識別階段注視序列聚集,搜索階段注視序列離散”和“視覺識別階段的注視持續(xù)時間比視覺搜索階段的注視持續(xù)時間長”這兩條規(guī)律時,本文算法性能表現(xiàn)良好。另外,圖8(b)繪制了圖片中有顯著物體的情況,此時只要滿足上述的兩條規(guī)律,算法的輸出結(jié)果依然較好。
圖8 視覺搜索-識別注視序列劃分算法的結(jié)果。(a)常規(guī)情況;(b)含有顯著物體的情況。
Fig.8 Results of visual search-recognition classification. (a) Normal situation; (b) Situation containing visual attention objects.
下載: 原圖 | 高精圖 | 低精圖
4.1.2 算法執(zhí)行效率對比
從表3可知,本文算法的運行速度明顯優(yōu)于Heatmap算法。Heatmap算法是由高斯函數(shù)累加,運行速度與注視序列的數(shù)量成正比,每一個注視點都需要進行一次二維高斯函數(shù)的計算,極大地影響了算法的運行速度。而本文基于空間特征聚類,無需反復(fù)進行高斯函數(shù)累加,因此運行速度有較大的改善。
表3 算法的整體運行速度
Tab.3 Overall running speed of the algorithm
方法 運行時間/s
本文Adaptive-DBSCAN算法 24.16
Heatmap算法 47.21
下載: 導(dǎo)出CSV
4.2 眼動圖像標(biāo)注精度對比
利用眼動數(shù)據(jù)標(biāo)注圖像的方法的研究目前還處于初級階段,DIMITRIOS P等[11]提出的眼動圖像標(biāo)注算法是一個非常經(jīng)典的算法。因此,為了驗證本文算法對提高眼動圖像標(biāo)注精度的可行性和有效性,本實驗將以該算法為基礎(chǔ)對比以下3種方法的圖像標(biāo)注精度:(1)復(fù)現(xiàn)的DIMITRIOS P圖像標(biāo)注算法(DIMITRIOS P);(2)基于熱力圖過濾離群點的圖像標(biāo)注算法(Heatmap-Annotation);(3)基于本文方法提取眼動識別階段注視點的圖像標(biāo)注方法(Ours)。為了比較結(jié)果的客觀性,這3種方法僅在眼動序列輸入的選擇上采取不同策略,后續(xù)的圖像標(biāo)注過程均保持一致。DIMITRIOS P算法未開源,因此復(fù)現(xiàn)該算法的初分割部分作為本文標(biāo)注算法的基線。其中似物性特征使用BING算法[26]構(gòu)建。
精度評估指標(biāo)CorLoc[11,27]的計算公式如式(6)所示:
CorLoc=mn
, (6)
式中:n為預(yù)測的物體框總數(shù),m為標(biāo)注結(jié)果與目標(biāo)真值框重疊率大于0.5目標(biāo)總數(shù)。
針對數(shù)據(jù)集中的10種標(biāo)注目標(biāo),上述3種方法標(biāo)注結(jié)果的CorLoc精度指標(biāo)計算結(jié)果如表4所示。原始DIMITRIOS P算法基于標(biāo)注過程中所有的眼動注視點,而實際情況中這些注視點有一部分可能停留在背景或者顯著非目標(biāo)上,因此容易造成標(biāo)注目標(biāo)定位不準(zhǔn)確的問題。從表4中可以明顯看到,10種目標(biāo)中除了“?!焙捅疚乃惴ㄏ嗟?、“狗”高于本文算法之外,標(biāo)注指標(biāo)均明顯低于Heatmap-Annotation或者本文算法。實驗結(jié)果說明在眼動標(biāo)注過程中,選擇與標(biāo)注物體相關(guān)的眼動注視點進行后續(xù)標(biāo)注目標(biāo)位置的初定位能提高標(biāo)注精度,證明了文本研究思路的有效性和可行性。比較Heatmap-Annotation算法和本文算法的標(biāo)注結(jié)果,本文方法7種目標(biāo)的標(biāo)注精度明顯比Heatmap-Annotation方法高,精度指標(biāo)的平均值高于Heatmap-Annotation。本文算法相較于DIMITRIOS P算法和Heatmap-Annotation算法分別平均提高了3.34%和1.02%,能更準(zhǔn)確地定位標(biāo)注目標(biāo)。圖9展示了部分目標(biāo)的標(biāo)注結(jié)果圖。
表4 眼動圖像標(biāo)注精度指標(biāo)CorLoc結(jié)果
Tab.4 Eye movement image annotation accuracy index CorLoc results
飛機 自行車 船 貓 牛 餐桌 狗 馬 摩托車 沙發(fā) 均值
DIMITRIOS P 52.5 7.5 16.5 39.7 34.9 23.3 31.0 35.5 30.5 21.3 29.27
Heatmap-Annotation 52.8 29.1 18.7 37.6 30.3 23.3 32.4 28.0 38.0 25.7 31.59
Ours 55.9 21.2 20.3 40.2 34.9 24.7 30.8 38.3 33.3 26.5 32.61
下載: 導(dǎo)出CSV
圖9 眼動圖像標(biāo)注算法的輸出結(jié)果對比圖。(a)~(c)飛機標(biāo)注圖;(d)~(f)自行車標(biāo)注圖;(g)沙發(fā)標(biāo)注圖。
Fig.9 Comparison of the output results of the eye movement image annotation. (a)~(c) Aeroplane;(d)~(f) Bicycle;(g) Sofa.
下載: 原圖 | 高精圖 | 低精圖
5 結(jié) 論
眼動圖像標(biāo)注算法以標(biāo)注序列中的所有人眼注視點為輸入實現(xiàn)目標(biāo)框標(biāo)注,然而注視點并非都是等權(quán)重的,未落在目標(biāo)物體上的注視點會為標(biāo)注算法引入目標(biāo)定位干擾因素,降低算法性能。
鑒于此,本文結(jié)合目標(biāo)標(biāo)注任務(wù)中的眼動特點,提出將注視點分類為視覺搜索和視覺識別兩大類,首先探究了兩個階段注視點在時間維度和空間維度上的眼動規(guī)律,然后結(jié)合眼動規(guī)律提出基于參數(shù)自適應(yīng)的DBSCAN算法的注視點分類方法。實驗結(jié)果表明,該方法能有效提取和標(biāo)注目標(biāo)相關(guān)的視覺識別注視點,提高目標(biāo)標(biāo)注精度,同時算法運行穩(wěn)定,執(zhí)行效率高。
目前我們僅考慮利用眼動規(guī)律實現(xiàn)兩個階段注視點的分類,對于標(biāo)注目標(biāo)大、停留其中的注視點空間聚集度不明顯的注視點,分類還不夠準(zhǔn)確。另外在多目標(biāo)聚集的情況下,多標(biāo)注目標(biāo)注視點的提取也比較困難。針對上述問題,在本文現(xiàn)有Adaptive-DBSCAN算法聚類特征僅為注視點眼動特征的基礎(chǔ)上,如何融合注視點所在超像素塊圖像特征(如紋理、顏色、邊緣等),提高大目標(biāo)、多目標(biāo)聚集時的圖像目標(biāo)標(biāo)注精度將是下一步的研究重點。
- 勞動教育與高校思政教育的契合性與融合性探討
- 數(shù)字轉(zhuǎn)型與價值共生: 教育強國視域下高校紅色文化教育的創(chuàng)新路徑
- 精準(zhǔn)翻譯讓世界更好讀懂中國
- 文化自信視閾下孟良崮紅色精神在藝術(shù)設(shè)計類課程中的融合與轉(zhuǎn)化
- 社會工作在突發(fā)公共衛(wèi)生事件中的介入途徑研究
- 鄉(xiāng)村旅游資源與游客體驗需求的空間配適性研究
- 鄉(xiāng)村振興戰(zhàn)略下藝術(shù)設(shè)計創(chuàng)新人才培養(yǎng)模式研究
- 產(chǎn)教融合視域下 非遺工藝美術(shù)的創(chuàng)新發(fā)展研究
- 中華優(yōu)秀傳統(tǒng)文化與高校美育的融合實踐探索
- 文旅融合背景下 河南紅色文化文創(chuàng)設(shè)計實踐研究
- 2025年中科院分區(qū)表已公布!Scientific Reports降至三區(qū)
- 官方認(rèn)定!CSSCI南大核心首批191家“青年學(xué)者友好期刊名單”
- 2023JCR影響因子正式公布!
- 國內(nèi)核心期刊分級情況概覽及說明!本篇適用人群:需要發(fā)南核、北核、CSCD、科核、AMI、SCD、RCCSE期刊的學(xué)者
- 我用了一個很復(fù)雜的圖,幫你們解釋下“23版最新北大核心目錄有效期問題”。
- 重磅!CSSCI來源期刊(2023-2024版)最新期刊目錄看點分析!全網(wǎng)首發(fā)!
- CSSCI官方早就公布了最新南核目錄,有心的人已經(jīng)拿到并且投入使用!附南核目錄新增期刊!
- 北大核心期刊目錄換屆,我們應(yīng)該熟知的10個知識點。
- 注意,最新期刊論文格式標(biāo)準(zhǔn)已發(fā)布,論文寫作規(guī)則發(fā)生重大變化!文字版GB/T 7713.2—2022 學(xué)術(shù)論文編寫規(guī)則
- 盤點那些評職稱超管用的資源,1,3和5已經(jīng)“絕種”了