面向大數(shù)據(jù)的高維數(shù)據(jù)挖掘技術(shù)研究
1 大數(shù)據(jù)的發(fā)展挑戰(zhàn)
1.1 在技術(shù)架構(gòu)形式上
現(xiàn)階段,數(shù)據(jù)庫正在全球化,立足于該發(fā)展模式,分布式模式需要得以創(chuàng)建,除了需要龐大機(jī)器之外,還需要有效處理龐大的數(shù)據(jù)信息。但是面對(duì)大數(shù)據(jù)時(shí)代,針對(duì)飛速激增的數(shù)據(jù)量,傳統(tǒng)數(shù)據(jù)分析已經(jīng)不能滿足需求,在以下3個(gè)方面得到體現(xiàn):
1.1.1 數(shù)據(jù)處理的時(shí)效性
面對(duì)大數(shù)據(jù)不斷推行,為了符合現(xiàn)階段數(shù)據(jù)處理實(shí)際需求,數(shù)據(jù)實(shí)現(xiàn)在線處理。在此基礎(chǔ)上,無論是數(shù)據(jù)處理選擇,還是數(shù)據(jù)處理模式,都不斷改變,處理具有實(shí)時(shí)性,除了能夠?qū)崿F(xiàn)流處理之外,批處理也成功實(shí)現(xiàn)。立足于大數(shù)據(jù)實(shí)時(shí)性處理,無論是業(yè)務(wù)需求,還是根據(jù)應(yīng)用,都逐步發(fā)生改變。
1.1.2 實(shí)現(xiàn)了動(dòng)態(tài)變化環(huán)境中的索引形式
在索引形式的基礎(chǔ)上,關(guān)系數(shù)據(jù)庫查詢速度將不斷提升,可是使用傳統(tǒng)數(shù)據(jù)管理模式,索引形式并不可以產(chǎn)生變化,在此基礎(chǔ)上,無論是更新效率,還是創(chuàng)建方式,都不斷形成。針對(duì)大數(shù)據(jù)信息的變化特點(diǎn),除了需要具備設(shè)計(jì)簡潔的特點(diǎn),創(chuàng)建索引方式還需要具有高效的特點(diǎn),由此針對(duì)大數(shù)據(jù)變化,無論是數(shù)據(jù)信息的需求調(diào)整,還是數(shù)據(jù)信息的處理,都可以良好使用。所以說,針對(duì)大數(shù)據(jù)變化,全新的索引形式需要成功設(shè)計(jì),在此基礎(chǔ)上確保查詢工作順利實(shí)施。
1.1.3 先驗(yàn)知識(shí)的缺失
立足于傳統(tǒng)數(shù)據(jù)分析結(jié)構(gòu),在關(guān)系型保存模式基礎(chǔ)上,無論是出現(xiàn)先驗(yàn)知識(shí),還是隱藏內(nèi)部關(guān)系,都早已出現(xiàn)。比如說,對(duì)信息屬性進(jìn)行分析過程中,可能存在的取值范圍需要確定,并且在實(shí)際分析之前,數(shù)據(jù)的了解就已經(jīng)形成。針對(duì)大數(shù)據(jù)分析,無論是非結(jié)構(gòu)化數(shù)據(jù),還是半結(jié)構(gòu)化數(shù)據(jù),都需要?jiǎng)?chuàng)建類似數(shù)據(jù),并且正式關(guān)系式需要實(shí)現(xiàn)。但是數(shù)據(jù)流的產(chǎn)生是不間斷進(jìn)行的,所以說針對(duì)實(shí)時(shí)發(fā)生的數(shù)據(jù),先驗(yàn)知識(shí)并不會(huì)創(chuàng)建完善,在此情況下,對(duì)無先驗(yàn)知識(shí),需要及時(shí)發(fā)現(xiàn)并及時(shí)處置。
2 高維數(shù)據(jù)挖掘中的問題
2.1 高維數(shù)據(jù)簡介
在大數(shù)據(jù)庫飛速增加的基礎(chǔ)上,維數(shù)同樣在急劇擴(kuò)大,一旦增長到瓶頸出,數(shù)據(jù)處理將難以進(jìn)行,人們將該數(shù)據(jù)就叫做高維數(shù)據(jù)。相對(duì)于傳統(tǒng)數(shù)據(jù)挖掘而言,除了具有復(fù)雜性的特點(diǎn)之外,高維數(shù)據(jù)還具有多信息量性,由此成為數(shù)據(jù)挖掘的核心所在。
2.2 高維數(shù)據(jù)的特點(diǎn)
(1)稀疏性:實(shí)質(zhì)就是數(shù)據(jù)庫相對(duì)龐大時(shí),即便高維數(shù)據(jù)非常多,但是能夠符合使用要求的,相對(duì)較少。
(2)維度災(zāi)難:挖掘高維數(shù)據(jù)的過程中,往往存在較多的屬性變化,在此情況下,索引結(jié)構(gòu)性能將不斷降低,特別是無論最近鄰,還是最遠(yuǎn)鄰,和查詢點(diǎn)的距離往往都一樣,由此最近鄰?fù)菦]有意義的,為此數(shù)據(jù)挖掘難度將急劇增加。
2.3 高維數(shù)據(jù)對(duì)于數(shù)據(jù)挖掘產(chǎn)生的影響
結(jié)合大數(shù)據(jù)特征,實(shí)際挖掘數(shù)據(jù)過程中,使用最近鄰法,在龐大數(shù)據(jù)中查詢效率將急劇提升,最近鄰法往往依賴索引結(jié)構(gòu)進(jìn)行的,可是針對(duì)高維數(shù)據(jù)存在維度災(zāi)難的特點(diǎn),最近鄰查詢往往被索引結(jié)構(gòu)支持度將不斷降低,甚至是使得最近鄰查詢無法有效進(jìn)行。
無論是進(jìn)行高維數(shù)據(jù)的分類聚類分析,還是進(jìn)行高維數(shù)據(jù)的異常檢測(cè),受制于索引結(jié)構(gòu)的制約,效果將大打折扣,甚至是失去效果,由此無論是異常檢測(cè)算法還是聚類分析性能將不斷降低;除此之外,針對(duì)同樣的數(shù)據(jù)點(diǎn)距離,使得分類聚類概念意義不斷消失,針對(duì)高??臻g數(shù)據(jù)具備的稀疏性,任何數(shù)據(jù)點(diǎn)都能夠視為異常點(diǎn),此時(shí)針對(duì)高維數(shù)據(jù)異常檢測(cè)將變得困難重重。
2.4 高維數(shù)據(jù)挖掘的研究方向
(1)距離函數(shù)或相似性度量函數(shù):無論是重新定義距離函數(shù),還是重新定義相似性度量函數(shù),都能夠成功避免“維度災(zāi)難”的制約。
(2)選維和降維:在不斷降低高維數(shù)據(jù)維度的基礎(chǔ)上,使得其成功形成低維數(shù)據(jù),由此進(jìn)行低維數(shù)據(jù)的數(shù)據(jù)挖掘。同時(shí)該方法最為人們所接受。
(3)高效的聚類算法和異常檢測(cè)算法:為成功解決算法效率不高的難題,存在三個(gè)方面的措施:第一,設(shè)計(jì)性能更好的索引結(jié)構(gòu);第二,增量算法;第三,并行算法。
3 大數(shù)據(jù)的高維數(shù)據(jù)挖掘技術(shù)
3.1 大數(shù)據(jù)儲(chǔ)存的三維矩陣模型
針對(duì)不一樣來源的數(shù)據(jù),往往可以選取不一樣的數(shù)據(jù)處理方式。比如說,通常情況下,在分解數(shù)據(jù)種類的基礎(chǔ)上,能夠?qū)⒄{(diào)研數(shù)據(jù)分為三類:第一,單選;第二,多選;第三,排序。無論是傳統(tǒng)數(shù)據(jù)記錄,還是傳統(tǒng)數(shù)據(jù)分析過程中,都是立足于同樣數(shù)據(jù)庫開展的,由此增加維度的不一樣,無論是數(shù)據(jù)分析,還是數(shù)據(jù)處理,都將受到制約。
所以說,針對(duì)大數(shù)據(jù)時(shí)代,數(shù)據(jù)模型的創(chuàng)建除了需要具有內(nèi)容多的特征,還需要存在極強(qiáng)的通用性。同樣以上文例子為例,在數(shù)據(jù)調(diào)研過程中,無論是單選,還是多選,都能夠依據(jù)向量來有效表達(dá),對(duì)應(yīng)的題目排序可以利用矩陣來表現(xiàn),在社會(huì)網(wǎng)絡(luò)數(shù)據(jù)的基礎(chǔ)上進(jìn)行,并且結(jié)合關(guān)鍵性類別來實(shí)際代表選題方式,最后模型轉(zhuǎn)換則是建立在三維矩陣和傳統(tǒng)數(shù)據(jù)庫基礎(chǔ)之上的(如圖1),處理關(guān)鍵數(shù)據(jù),由此不一樣的空間形式將存在空間維度之上,此時(shí)三維矩陣將有全部數(shù)據(jù)來源構(gòu)成,進(jìn)行有效組合之后,形成立體式模型,如圖2。
3.2 關(guān)聯(lián)規(guī)則的三維矩陣挖掘
實(shí)際進(jìn)行大數(shù)據(jù)挖掘過程中,關(guān)聯(lián)規(guī)則挖掘是最受人們青睞的。無論是不一樣的屬性,還是項(xiàng)目關(guān)系,都是沒有辦法隱藏,同時(shí)也是沒有辦法預(yù)知的,只有在統(tǒng)計(jì)方法和數(shù)據(jù)庫的基礎(chǔ)上加以實(shí)現(xiàn)?,F(xiàn)階段,關(guān)聯(lián)規(guī)則挖掘技術(shù)憑借其良好的性能,成為了使用廣泛的技術(shù)之一,在關(guān)聯(lián)規(guī)則挖掘過程中存在以下核心要素:
(1)置信度:主要用于度量衡量強(qiáng)度以及準(zhǔn)確性;
(2)支持度:主要用于衡量度量重要性。
在日常生活和工作中,在關(guān)聯(lián)規(guī)則挖掘過程中,只有上訴核心因素?cái)?shù)值最小的時(shí)候,支持度同樣也對(duì)應(yīng)最小值,由此才得以成功處于關(guān)聯(lián)規(guī)則內(nèi)。假如需要使得關(guān)聯(lián)規(guī)則可靠性最低,此時(shí)置信度需要確保為最低。
想要使得多維數(shù)據(jù)成功在空間中表現(xiàn),立足于空間特種,能夠在多維儲(chǔ)存模型的基礎(chǔ)上成功表現(xiàn),由此無論是數(shù)據(jù)層次還是數(shù)據(jù)語言,都能夠有效表達(dá)。比如說:在檢測(cè)海洋數(shù)據(jù)過程中,氣象環(huán)境除了風(fēng)力之外,還有降水等等;海底環(huán)境處理重力之外,還有水深等等;水體環(huán)境除了有水溫計(jì)鹽度之外,還有潮流和水聲,因素眾多且相互交織,由此多維數(shù)據(jù)得以形成。在模型建立的基礎(chǔ)上,使得多維數(shù)據(jù)能夠在空間成功表達(dá),使得海洋多樣化的數(shù)據(jù)結(jié)構(gòu)得以呈現(xiàn)。
3.3 基于超圖的聚類算法
在原始數(shù)據(jù)相互關(guān)系的基礎(chǔ)上,結(jié)合超圖數(shù)據(jù)集,使得圖形劃分方法不斷得到優(yōu)化,此為超圖聚類算法。在三維矩陣之中,利用分割算法進(jìn)行圖像劃分,使用最為廣泛的即為HMETIS算法,存在如下步驟:
(1)首先是粗化階段,在最小超圖的基礎(chǔ)上,結(jié)合推進(jìn)超圖,進(jìn)行不斷壓縮。
(2)其次是初始劃分階段,在二次劃分超圖的基礎(chǔ)上,利用二次方法,來不斷強(qiáng)化超圖質(zhì)量,使得工作效率有效提升。
(3)最后遷移優(yōu)化階段,分解超圖之后,在投影基礎(chǔ)上,使得分解質(zhì)量不斷提升。
3.4 高維數(shù)據(jù)挖掘的工具
現(xiàn)階段,存在三種使用廣泛的高維數(shù)據(jù)挖掘工具:第一,SPSS;第二,Exterprise Miner;第三,SAS。存在如下特征:
(1)SAS:是建立在統(tǒng)計(jì)理論之上的,存在諸多功能,高維數(shù)據(jù)挖掘功能相對(duì)齊全,但是需要專業(yè)人士進(jìn)行操作,并且存在極高的運(yùn)用成本。
(2)Exterprise Miner:具有操作簡便的優(yōu)勢(shì),高維數(shù)據(jù)的處理能力相對(duì)適中,但是不能進(jìn)行數(shù)據(jù)搜索。
(3)SPSS:和SAS具有類似功能,但是相對(duì)而言具有較高性價(jià)比,高維數(shù)據(jù)挖掘功能較為出眾,除此之外,立足于集成以及發(fā)布功能,工作人員能夠較好的掌握挖掘結(jié)果,并且理解挖掘結(jié)果。
本文來源:《企業(yè)科技與發(fā)展》:http://m.xwlcp.cn/w/kj/21223.html
欄目分類
- 勞動(dòng)教育與高校思政教育的契合性與融合性探討
- 數(shù)字轉(zhuǎn)型與價(jià)值共生: 教育強(qiáng)國視域下高校紅色文化教育的創(chuàng)新路徑
- 精準(zhǔn)翻譯讓世界更好讀懂中國
- 文化自信視閾下孟良崮紅色精神在藝術(shù)設(shè)計(jì)類課程中的融合與轉(zhuǎn)化
- 社會(huì)工作在突發(fā)公共衛(wèi)生事件中的介入途徑研究
- 鄉(xiāng)村旅游資源與游客體驗(yàn)需求的空間配適性研究
- 鄉(xiāng)村振興戰(zhàn)略下藝術(shù)設(shè)計(jì)創(chuàng)新人才培養(yǎng)模式研究
- 產(chǎn)教融合視域下 非遺工藝美術(shù)的創(chuàng)新發(fā)展研究
- 中華優(yōu)秀傳統(tǒng)文化與高校美育的融合實(shí)踐探索
- 文旅融合背景下 河南紅色文化文創(chuàng)設(shè)計(jì)實(shí)踐研究
- 2025年中科院分區(qū)表已公布!Scientific Reports降至三區(qū)
- 官方認(rèn)定!CSSCI南大核心首批191家“青年學(xué)者友好期刊名單”
- 2023JCR影響因子正式公布!
- 國內(nèi)核心期刊分級(jí)情況概覽及說明!本篇適用人群:需要發(fā)南核、北核、CSCD、科核、AMI、SCD、RCCSE期刊的學(xué)者
- 我用了一個(gè)很復(fù)雜的圖,幫你們解釋下“23版最新北大核心目錄有效期問題”。
- 重磅!CSSCI來源期刊(2023-2024版)最新期刊目錄看點(diǎn)分析!全網(wǎng)首發(fā)!
- CSSCI官方早就公布了最新南核目錄,有心的人已經(jīng)拿到并且投入使用!附南核目錄新增期刊!
- 北大核心期刊目錄換屆,我們應(yīng)該熟知的10個(gè)知識(shí)點(diǎn)。
- 注意,最新期刊論文格式標(biāo)準(zhǔn)已發(fā)布,論文寫作規(guī)則發(fā)生重大變化!文字版GB/T 7713.2—2022 學(xué)術(shù)論文編寫規(guī)則
- 盤點(diǎn)那些評(píng)職稱超管用的資源,1,3和5已經(jīng)“絕種”了