優(yōu)勝?gòu)倪x擇開(kāi)始,我們是您最好的選擇!—— 中州期刊聯(lián)盟(新鄉(xiāng)市博翰文化傳媒有限公司)
0373-5939925
2851259250@qq.com
我要檢測(cè) 我要投稿 合法期刊查詢

數(shù)據(jù)挖掘技術(shù)綜述

作者:尤楠來(lái)源:http://www.zzqkw.com日期:2013-01-31人氣:1359

數(shù)據(jù)挖掘(DM)是一門新興的交叉學(xué)科,也是現(xiàn)代科學(xué)技術(shù)相互滲透的必然結(jié)果,其基本目標(biāo)就是從大量的數(shù)據(jù)中提取隱藏的、潛在的和有用的知識(shí)和信息。這一技術(shù)自20世紀(jì)末提出以來(lái),引起了許專家學(xué)者的廣泛關(guān)注,并應(yīng)用到金融業(yè)、零售業(yè)、醫(yī)療保健和政府決策等各個(gè)領(lǐng)域,取得了良好的社會(huì)效益和經(jīng)濟(jì)效益,具有廣闊的開(kāi)發(fā)前景和應(yīng)用前景。 從數(shù)據(jù)挖掘的發(fā)展過(guò)程來(lái)看,其應(yīng)用主要經(jīng)歷了以下四個(gè)過(guò)程 一、數(shù)據(jù)挖掘模型與算法 具體來(lái)講,現(xiàn)在的數(shù)據(jù)挖掘技術(shù)主要涉及神經(jīng)網(wǎng)絡(luò)、決策樹(shù)、遺傳算法、數(shù)理統(tǒng)計(jì)分析、關(guān)聯(lián)規(guī)則和聚類分析等方法和學(xué)科 (一)神經(jīng)網(wǎng)絡(luò) 神經(jīng)網(wǎng)絡(luò)為解決大復(fù)雜度問(wèn)題提供了一種相對(duì)來(lái)說(shuō)比較有效的簡(jiǎn)單方法,它是模仿人腦神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和某些工作機(jī)制而建立的一種非線形預(yù)測(cè)模型,經(jīng)過(guò)學(xué)習(xí)進(jìn)行模式識(shí)別的。其工作機(jī)理是通過(guò)學(xué)習(xí)改變神經(jīng)元之間的連接強(qiáng)度。神經(jīng)網(wǎng)絡(luò)有前向神經(jīng)網(wǎng)絡(luò)、反饋神經(jīng)網(wǎng)絡(luò)、自組織神經(jīng)網(wǎng)絡(luò)等,在神經(jīng)網(wǎng)絡(luò)中,由權(quán)重和網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)決定了它所能識(shí)別的模式類型。 (二)決策樹(shù) 決策樹(shù)學(xué)習(xí)著眼于從一組無(wú)次序、無(wú)規(guī)則的事例中推理出決策樹(shù)表示形式的分類規(guī)則。它采用自頂向下的遞歸方式,在決策樹(shù)的內(nèi)部結(jié)點(diǎn)進(jìn)行屬性值的比較并根據(jù)不同的屬性值判斷從該結(jié)點(diǎn)向下的分支,在決策樹(shù)的葉結(jié)點(diǎn)得到結(jié)論。所以,從根到葉結(jié)點(diǎn)的一條路徑就對(duì)應(yīng)著一條合取規(guī)則,整棵決策樹(shù)就對(duì)應(yīng)著一組析取表達(dá)式規(guī)則?;跊Q策樹(shù)的學(xué)習(xí)算法的一個(gè)最大的優(yōu)點(diǎn)就是它在學(xué)習(xí)過(guò)程中不需要使用者了解很多背景知識(shí)(這也同時(shí)是它最大的缺點(diǎn)),只要訓(xùn)練例子能夠用屬性-結(jié)論式的方式表達(dá)出來(lái),就能使用該算法來(lái)學(xué)習(xí)。 (三)遺傳算法 遺傳算法是一種優(yōu)化技術(shù),是模擬生物進(jìn)化過(guò)程的算法。基于進(jìn)化理論,并采用遺傳結(jié)合、遺傳變異以及自然選擇等設(shè)計(jì)方法。遺傳算法已在優(yōu)化計(jì)算、分類、機(jī)器學(xué)習(xí)等方面發(fā)揮了顯著作用。在數(shù)據(jù)挖掘中,它還可以用于評(píng)估其它算法的適合度,在處理組合優(yōu)化問(wèn)題方面有一定的優(yōu)勢(shì),可用于聚類分析等。遺傳算法的最大特點(diǎn)在于演算簡(jiǎn)單,但其用于數(shù)據(jù)挖掘也存在一些問(wèn)題:算法較復(fù)雜,還有收斂于局部極小的過(guò)早收斂等難題未得到徹底解決。 (四)數(shù)理統(tǒng)計(jì)分析 這類技術(shù)建立在傳統(tǒng)的數(shù)理統(tǒng)計(jì)的基礎(chǔ)上。在數(shù)據(jù)庫(kù)字段項(xiàng)之間存在兩種關(guān)系:函數(shù)關(guān)系(能用函數(shù)公式表示的確定性關(guān)系)和相關(guān)關(guān)系(不能用函數(shù)公式表示,但仍是相關(guān)確定性關(guān)系),對(duì)它們的分析可采用判別分析、因子分析、相關(guān)分析、多元回歸分析及偏最小二乘回歸方法等。傳統(tǒng)統(tǒng)計(jì)分析可用于分類挖掘和聚類挖掘,SAS,SPSS和BMDP是目前國(guó)際上最具影響力的3大統(tǒng)計(jì)分析軟件。 (五)聚類分析 聚類分析是多元統(tǒng)計(jì)分析方法之一,也是統(tǒng)計(jì)模式識(shí)別中非監(jiān)督模式識(shí)別的一個(gè)重要分支。在統(tǒng)計(jì)分析和模式識(shí)別領(lǐng)域,聚類已經(jīng)被廣泛研究了多年,提出了大量的理論和方法,取得了豐碩的研究成果。 聚類的研究主要包括以下幾方面: (1)聚類有效性問(wèn)題。聚類有效性問(wèn)題的研究是圍繞硬c-均值聚類算法和模糊c-均值聚類算法進(jìn)行的,實(shí)際應(yīng)用中,定義聚類有效性函數(shù)是最常用的方法。目前對(duì)聚類有效性問(wèn)題的研究已延伸到非球狀數(shù)據(jù)分布的數(shù)據(jù)集中,如線狀和殼狀數(shù)據(jù)集。 (2)迭代優(yōu)化聚類的初始化問(wèn)題?,F(xiàn)有的聚類初始化研究大致分為三種途徑:隨機(jī)采樣法,距離優(yōu)化法以及密度估計(jì)法。目前各種初始化方法各有優(yōu)缺點(diǎn),而且許多現(xiàn)有的初始化方法本身就是一種聚類方法或是多種聚類方法的綜合,因而優(yōu)化過(guò)程中也會(huì)出現(xiàn)初始化的問(wèn)題。 (3)分類屬性數(shù)據(jù)聚類。圍繞分類數(shù)據(jù)類型和混合數(shù)據(jù)類型聚類問(wèn)題,專家學(xué)者提出了很多新的概念和方法。其中,研究較為深入的是概念和層次聚類算法。由于概念聚類和層次聚類計(jì)算復(fù)雜,隨著新的分類屬性數(shù)據(jù)的相似度和距離函數(shù)的提出,面向分類屬性數(shù)據(jù)的基于劃分的聚類算法逐漸也應(yīng)用于數(shù)據(jù)挖掘中。 二、數(shù)據(jù)挖掘未來(lái)的發(fā)展方向 預(yù)計(jì)在未來(lái)的一段時(shí)間內(nèi),數(shù)據(jù)挖掘的研究還會(huì)深入下去,研究焦點(diǎn)可能會(huì)集中到以下幾個(gè)方面: (一)數(shù)據(jù)挖掘算法的效率和可擴(kuò)展性 目前數(shù)據(jù)庫(kù)數(shù)據(jù)量大,維數(shù)高,使得數(shù)據(jù)挖掘的搜索空間增大,發(fā)現(xiàn)知識(shí)的盲目性提高。如何充分利用領(lǐng)域的知識(shí),剔除與發(fā)現(xiàn)任務(wù)無(wú)關(guān)的數(shù)據(jù),有效地降低問(wèn)題的維數(shù),設(shè)計(jì)出高效率的知識(shí)發(fā)現(xiàn)算法是下一步發(fā)展的重點(diǎn)。 (二)數(shù)據(jù)的時(shí)序性 在應(yīng)用領(lǐng)域的數(shù)據(jù)庫(kù)中,數(shù)據(jù)在不斷地更新,隨著時(shí)間的推移,原先發(fā)現(xiàn)的知識(shí)將不再有用,我們需要隨時(shí)間逐步修正發(fā)現(xiàn)模式來(lái)指導(dǎo)新的發(fā)現(xiàn)過(guò)程。 (三)互聯(lián)網(wǎng)上知識(shí)的發(fā)現(xiàn) Www正日益普及,從中可以找到很多新的知識(shí),已有一些資源發(fā)現(xiàn)工具來(lái)發(fā)現(xiàn)含有關(guān)鍵字的文本,但對(duì)在www上發(fā)現(xiàn)知識(shí)的研究不多。人們現(xiàn)在面臨的問(wèn)題是如何從復(fù)雜的數(shù)據(jù)(例如多媒體數(shù)據(jù))中提取有用的信息,對(duì)多層數(shù)據(jù)庫(kù)的維護(hù),如何處理數(shù)據(jù)的異類性和自主性等等。  

網(wǎng)絡(luò)客服QQ: 沈編輯

投訴建議:0373-5939925????投訴建議QQ:

招聘合作:2851259250@qq.com (如您是期刊主編、文章高手,可通過(guò)郵件合作)

地址:河南省新鄉(xiāng)市金穗大道東段266號(hào)中州期刊聯(lián)盟 ICP備案號(hào):豫ICP備2020036848

【免責(zé)聲明】:中州期刊聯(lián)盟所提供的信息資源如有侵權(quán)、違規(guī),請(qǐng)及時(shí)告知。

版權(quán)所有:中州期刊聯(lián)盟(新鄉(xiāng)市博翰文化傳媒有限公司)

關(guān)注”中州期刊聯(lián)盟”公眾號(hào)
了解論文寫作全系列課程

核心期刊為何難發(fā)?

論文發(fā)表總嫌貴?

職院?jiǎn)挝话l(fā)核心?

掃描關(guān)注公眾號(hào)

論文發(fā)表不再有疑惑

論文寫作全系列課程

掃碼了解更多

輕松寫核心期刊論文

在線留言