web挖掘技術在競爭情報活動中的應用淺析-科技論文

作者：馬奎林來源：原創(chuàng)日期：2012-07-16人氣：1113

web內容挖掘。Web內容挖掘是一種基于網頁內容的web挖掘。是從大量的web數(shù)據中發(fā)現(xiàn)信息、抽取知識的過程。這些數(shù)據既有文本數(shù)據，也有圖像、聲頻、音頻等多媒體數(shù)據，既有來自于數(shù)據庫的結構化數(shù)據，也有用HTML標記的半結構化數(shù)據和無結構的自由文本。
（二）web結構挖掘。Web結構挖掘是從www的組織結構和連接關系中推導知識。Web結構挖掘通過分析一個網頁鏈接和被鏈接數(shù)量以及對象，建立web自身的連接結構模式。這種模式可以用于網頁歸類，并且可以由此獲得不同網頁間相似度和關聯(lián)度的信息。Web結構挖掘有助于用戶找到相關主題的權威站點，并且可以指向眾多權威站點的相關主題站點。
（三）web使用挖掘。除了web內容和web鏈接結構以外，web挖掘的另一個重要任務是對web使用記錄進行挖掘。Web內容挖掘和web結構挖掘的對象是網上的原始數(shù)據，而web使用記錄的挖掘則與此不同，它面對的是在用戶和網絡交互的過程中抽取出來的第二手數(shù)據。它通過挖掘web日志記錄和相關數(shù)據，從而發(fā)現(xiàn)用戶訪問web頁面的模式。
三、Web挖掘技術研究
（一）Web內容挖掘實現(xiàn)技術。Web內容挖掘主要體現(xiàn)為對web文本的挖掘，包括對文本內容的總結、分類、聚類機關聯(lián)分析等。1.文本總結。其目的是對文本信息進行濃縮，給出它的緊湊描述。文本總結是指從文檔中抽取關鍵信息，用簡潔的形式對文檔內容進行摘要或解釋。這樣，用戶不需要瀏覽全文就可以了解文檔或文檔集合的總體內容。2.文本分類。分類的概念是在已有數(shù)據的基礎上學會一個分類函數(shù)或構造出一個分類模型，即通常所說的分類器。分類器一般分為訓練和分類兩個階段。3.文本聚類。文本聚類是一種典型的無教師的機器學習問題。目前的文本聚類方法大致可以分為層次凝聚法和平面劃分法兩種類型。聚類是把一組個體按照相似性歸成若干類別，即“物以類聚”。4.關聯(lián)規(guī)則。關聯(lián)規(guī)則模式數(shù)據描述型模式，發(fā)現(xiàn)關聯(lián)規(guī)則的算法屬于無監(jiān)督學習的方法。發(fā)現(xiàn)關聯(lián)規(guī)則通常要經過以下3個步驟：連接數(shù)據，做數(shù)據準備；給定最小支持度和最小可信度，利用數(shù)據挖掘工具提供的算法發(fā)現(xiàn)關聯(lián)規(guī)則；可視化顯示、理解、評估關聯(lián)規(guī)則。
（二）用戶使用記錄挖掘實現(xiàn)技術。在挖掘Web用戶使用記錄時描述用戶訪問的數(shù)據包括：IP地址、參考頁面、訪問日期和時間、用戶Web站點及配置信息。這些數(shù)據可以來自于服務器端、客戶端、代理服務器端或者是公司的數(shù)據庫。
發(fā)現(xiàn)用戶使用記錄信息的方法有兩種。一種方法是通過對日志文件進行分析，包含兩種方式，是訪問前先進行預處理，即將日志數(shù)據映射為關系表并采用相應的數(shù)據挖掘技術，如關聯(lián)規(guī)則或聚類技術來訪問日志數(shù)據；二是對日志數(shù)據進行直接訪問以獲取用戶的導航信息。另一種方法是通過對用戶點擊事件的搜集和分析發(fā)現(xiàn)用戶導航行為。
四、Web挖掘在競爭情報系統(tǒng)中的應用
（一）利用Web挖掘獲取、開發(fā)和利用競爭對手和客戶的信息。從Web挖掘技術的實現(xiàn)流程來看，Web挖掘不僅僅是像網絡信息檢索那樣只是把符合查詢要求的記錄返回給用戶，這樣得到的結果集不僅數(shù)量龐大，而且包括很多不相關信息。正如前面所提到的，Web挖掘不僅能夠從WWW的大量的數(shù)據中發(fā)現(xiàn)信息，而且它還能發(fā)現(xiàn)權威站點、有重要價值的“隱藏”信息，并且能夠監(jiān)視和預測用戶的訪問習慣、購買行為，并能夠發(fā)現(xiàn)顧客購買模式趨勢。
（二）挖掘Web日志記錄來發(fā)現(xiàn)用戶訪問Web頁面的模式。通過分析和探究web日志記錄中的規(guī)律，可以識別電子商務的潛在客戶，增強對最終用戶的互聯(lián)網信息服務的質量和交付，并改進Web服務器系統(tǒng)的性能。挖掘Web日志訪問紀錄，有助于聚類用戶并將用戶分門別類，以便實現(xiàn)個性化的市場服務.
（三）Web挖掘在反競爭情報活動中的應用。反競爭情報是企業(yè)競爭情報活動的重要組成部分，忽視競爭對手的競爭情報活動、低估競爭對手搜集競爭情報的能力勢必導致企業(yè)失去已有的競爭優(yōu)勢?，F(xiàn)在，已有越來越多的企業(yè)建立了自己的Web站點，企業(yè)上網已成為一股不可逆轉的潮流。因此，對它進行監(jiān)控是企業(yè)了解競爭對手的競爭情報活動的重要途徑。在競爭情報計算機系統(tǒng)中，可以充分利用Web挖掘技術，通過運用分析訪問者的IP地址、客戶端歷屆域、信息訪問路徑等Web監(jiān)控技術、統(tǒng)計敏感信息訪問率等方法實現(xiàn)對競爭對手的防范，以達到識別競爭對手保護企業(yè)敏感性信息的目的。
總之，作為一種新型的信息處理與分析技術，web挖掘的確在競爭情報活動中具有巨大的應用潛力。充分運用web挖掘來發(fā)掘蘊藏在互聯(lián)網上的競爭情報資源，將會為企業(yè)競爭力的提升提供強大的支持與動力。

關鍵字：科技論文論文篇代發(fā)論文

上一篇：中年知識分子心理健康的現(xiàn)狀分析
下一篇：在生活中學習有用的地理知識-社科論文

欄目分類

熱門排行

推薦信息

期刊知識