基于速度加速度的子空間聚類算法-數(shù)學(xué)分析論文
聚類分析是數(shù)據(jù)挖掘中非?;钴S的研究領(lǐng)域。聚類是將給定的數(shù)據(jù)集劃分成不同類別(或稱為一個聚類),使同一類別中個體的相似度盡可能大,而不同類別中個體的相似度盡可能小。聚類可以發(fā)現(xiàn)屬性之間所存在的聯(lián)系,從而找出數(shù)據(jù)分布的模式,目前它已經(jīng)廣泛應(yīng)用于模式識別、數(shù)據(jù)分析、圖象處理和市場分析。聚類分析所涉及的領(lǐng)域包括:數(shù)據(jù)挖掘、統(tǒng)計學(xué)、機(jī)器學(xué)習(xí)、空間數(shù)據(jù)技術(shù)、生物學(xué)、市場學(xué)等。
隨著數(shù)據(jù)量的快速增大,數(shù)據(jù)往往是具有很多特征,即現(xiàn)實中的數(shù)據(jù)大多是高維度數(shù)據(jù)集,而高維度的數(shù)據(jù)往往是稀疏的(即不存在全部維度上都密集的聚類),又因為聚類算法的時間復(fù)雜度往往會隨著維度的增加而快速的增大,故而,高維度數(shù)據(jù)空間中的子空間聚類是很有效的一種獲取有用信息的方法。
3 算法實驗結(jié)果及分析
評估一種邊界點檢測算法的標(biāo)準(zhǔn)主要有兩個方面:算法的有效性(正確性)和執(zhí)行效率。有效性意味著算法能夠準(zhǔn)確地檢測出聚類的邊界點;執(zhí)行效率高意味著算法不僅可以應(yīng)用在小型數(shù)據(jù)集上,而且可以應(yīng)用到大型數(shù)據(jù)集上,有很好的擴(kuò)展性。下面,我們從這兩方面對算法做出評估。
3.1有效性分析
我們使用一個數(shù)據(jù)集的實驗結(jié)果和一個數(shù)據(jù)集的理論分析來說明問題。
1、為了直觀地說明算法的有效性,本文使用二維數(shù)據(jù)集進(jìn)行測試。
原圖 CLIQUE BAS-CLIQUE
圖4 兩種算法實驗結(jié)果比較
圖4為包含8486個數(shù)據(jù)對象的數(shù)據(jù)集,從實驗結(jié)果可以看出來,CLIQUE把聚類邊界的很多數(shù)據(jù)點歸為噪聲,造成了精度的下降,這也是很多基于網(wǎng)格的聚類算法都存在的問題即邊界的檢測問題。而改進(jìn)后的BAS-CLIQUE算法,在聚類的邊界處使用間隔之間數(shù)據(jù)點個數(shù)變化的速度和加速度參數(shù),使聚類邊界得到了很好的柔化,能較好地避免邊界點的損失,提高聚類精度。
2、數(shù)據(jù)集理論分析。
我們從理論上的示例數(shù)據(jù)集來說明算法的效果。
圖5在示例數(shù)據(jù)集上進(jìn)行理論說明
如圖5,使用CLIQUE算法,如果設(shè)定的密度閾值過高,則兩個菱形中的稀薄區(qū)域?qū)⒉粫话诰垲愔?;如果密度閾值過低,則左右兩個菱形會被認(rèn)為是同一個聚類(因為間隔t2的數(shù)據(jù)點密度比較大,CLIQUE會認(rèn)為它與t1和t3同屬于一個聚類)。
而BAS-CLIQUE加入了速度和加速度參數(shù)來增加聚類邊界的精確度,由t1、t2到t3,密度變化的趨勢為先減后加,加速度會超過給定標(biāo)準(zhǔn)(因為速度的變化比較大),我們會認(rèn)為t2是聚類的邊界;同時在兩個菱形的稀薄區(qū)域,密度變化的趨勢都為逐漸減小,加速度不會超過給定標(biāo)準(zhǔn),我們會得到較CLIQUE更為精確的聚類形狀。
3.2 時間復(fù)雜度分析
本算法對CLIQUE算法主要做了兩點改進(jìn):
1、在每一維查找密集單元時,通過間隔內(nèi)密度的速度和加速度進(jìn)行聚類。對每一個滿足密度閾值的密集單元進(jìn)行一次遍歷,計算速度和加速度并進(jìn)行合并,此項操作會增加密集單元的掃描次數(shù),只增加線性的時間復(fù)雜度,在總體算法時間復(fù)雜度方面沒有影響。但此項操作可以有效地減少密集單元的個數(shù)(因為生成了自適應(yīng)間隔,而自適應(yīng)間隔可能有固定間隔幾倍的跨度范圍),進(jìn)而減少在以后剪枝操作中的遍歷次數(shù),在最壞的情況下,即每一個密集間隔與其他密集間隔都不相鄰,將會產(chǎn)生與CLIQUE相同的時間復(fù)雜度。
2、在剪枝的操作過程中,考慮速度和加速度的因素,會增加線性的時間復(fù)雜度,在總體算法時間復(fù)雜度方面沒有影響。
綜上,BAS-CLIQUE相比CLIQUE,時間復(fù)雜度相同,通常情況下效率更高一點(最壞情況下與CLIQUE相同O(Cd+md) ,其中m是輸入數(shù)據(jù)點數(shù),C為常數(shù),d是數(shù)據(jù)空間的維度)。
4結(jié)論及進(jìn)一步工作
本文提出了基于速度加速度的子空間檢測算法,該算法基于CLIQUE,在尋找密集單元和剪枝的過程中利用速度和加速度進(jìn)行了優(yōu)化,能有效地提高CLIQUE的精確度和計算效率。但本算法增加了一個參數(shù)(在本文2.2中表述,加速度參數(shù)取速度參數(shù)的常數(shù)倍數(shù)),下一步我們將在更多數(shù)據(jù)集包括真實數(shù)據(jù)集上進(jìn)行實驗,以證明算法的有效性,及采取有效措施減小參數(shù)對聚類結(jié)果的影響。
欄目分類
- 新時代美育視域下高校舞蹈作品排演課程的教學(xué)策略與實踐探索
- 高職學(xué)前教育專業(yè)舞蹈教學(xué)的四階段導(dǎo)向
- 數(shù)智化背景下舞蹈教育的發(fā)展路徑探究
- 自媒體時代下廣場舞的自我認(rèn)同研究
- 公路混凝土施工裂縫的防治措施探析
- 大型水利工程中地基處理技術(shù)及質(zhì)量控制研究 ——以皮山縣皮山河流域供水工程為例
- 大數(shù)據(jù)在特種設(shè)備檢驗和管理中的應(yīng)用
- 論建筑樁基工程施工中旋挖鉆孔成樁施工技術(shù)的應(yīng)用
- 市政管網(wǎng)給排水工程中混凝土結(jié)構(gòu)施工質(zhì)量控制
- 小學(xué)網(wǎng)球體能訓(xùn)練問題及突圍策略探尋
- 2025年中科院分區(qū)表已公布!Scientific Reports降至三區(qū)
- 2023JCR影響因子正式公布!
- 國內(nèi)核心期刊分級情況概覽及說明!本篇適用人群:需要發(fā)南核、北核、CSCD、科核、AMI、SCD、RCCSE期刊的學(xué)者
- 我用了一個很復(fù)雜的圖,幫你們解釋下“23版最新北大核心目錄有效期問題”。
- CSSCI官方早就公布了最新南核目錄,有心的人已經(jīng)拿到并且投入使用!附南核目錄新增期刊!
- 北大核心期刊目錄換屆,我們應(yīng)該熟知的10個知識點。
- 注意,最新期刊論文格式標(biāo)準(zhǔn)已發(fā)布,論文寫作規(guī)則發(fā)生重大變化!文字版GB/T 7713.2—2022 學(xué)術(shù)論文編寫規(guī)則
- 盤點那些評職稱超管用的資源,1,3和5已經(jīng)“絕種”了
- 職稱話題| 為什么黨校更認(rèn)可省市級黨報?是否有什么說據(jù)?還有哪些機(jī)構(gòu)認(rèn)可黨報?
- 《農(nóng)業(yè)經(jīng)濟(jì)》論文投稿解析,難度指數(shù)四顆星,附好發(fā)選題!