優(yōu)勝?gòu)倪x擇開(kāi)始,我們是您最好的選擇!—— 中州期刊聯(lián)盟(新鄉(xiāng)市博翰文化傳媒有限公司)
0373-5939925
2851259250@qq.com
我要檢測(cè) 我要投稿 合法期刊查詢

從計(jì)算角度看大規(guī)模數(shù)據(jù)中的知識(shí)組織

作者:李旭暉/秦書(shū)倩/吳燕秋/馬費(fèi)成來(lái)源:《圖書(shū)情報(bào)知識(shí)》日期:2020-04-10人氣:921

大數(shù)據(jù)時(shí)代的到來(lái)促使各種大規(guī)模數(shù)據(jù)集不斷涌現(xiàn),如何組織其中的知識(shí)信息以提供內(nèi)容更加豐富、功能更加強(qiáng)大的知識(shí)服務(wù)成為當(dāng)前的研究熱點(diǎn)。文章根據(jù)大規(guī)模數(shù)據(jù)中知識(shí)內(nèi)容多元化、結(jié)構(gòu)網(wǎng)絡(luò)化、源數(shù)據(jù)非結(jié)構(gòu)化以及狀態(tài)頻繁演化等特性,從計(jì)算角度對(duì)其知識(shí)組織的重點(diǎn)問(wèn)題進(jìn)行了探討。文章認(rèn)為,知識(shí)組織需要適應(yīng)當(dāng)前以知識(shí)復(fù)用、發(fā)現(xiàn)和增值為核心的知識(shí)計(jì)算服務(wù)的需求,其重點(diǎn)在于底層知識(shí)信息的組織管理并受到知識(shí)持續(xù)演化的重要影響。文章提出了以語(yǔ)義數(shù)據(jù)管理為基礎(chǔ)進(jìn)行知識(shí)組織的觀點(diǎn),并據(jù)此對(duì)大規(guī)模數(shù)據(jù)中知識(shí)組織的核心問(wèn)題(包括語(yǔ)義數(shù)據(jù)模型、知識(shí)表示、知識(shí)計(jì)算等方面)進(jìn)行了剖析,論述了各相關(guān)方向亟待解決的理論問(wèn)題和未來(lái)可能出現(xiàn)的發(fā)展趨勢(shì)。

1 引言

知識(shí)組織是對(duì)知識(shí)及知識(shí)間的關(guān)聯(lián)進(jìn)行揭示與組織,研究包括知識(shí)獲取、知識(shí)處理、知識(shí)表示和知識(shí)共享等在內(nèi)的一系列知識(shí)組織的過(guò)程[1]。早期的知識(shí)組織一般被認(rèn)為偏向于對(duì)文獻(xiàn)進(jìn)行分類(lèi)與編目,或是表示對(duì)信息的歸類(lèi)與組織。隨著對(duì)文獻(xiàn)、信息與知識(shí)三個(gè)概念之間的進(jìn)一步認(rèn)識(shí)與區(qū)分,知識(shí)組織的內(nèi)涵也逐步發(fā)生變化。在大數(shù)據(jù)時(shí)代海量數(shù)據(jù)不斷地產(chǎn)生并被保存下來(lái),積淀下各種大規(guī)模數(shù)據(jù)集。這些數(shù)據(jù)集繼承了大數(shù)據(jù)中的豐富語(yǔ)義內(nèi)涵,同時(shí)相對(duì)于大數(shù)據(jù)的易變性而言其內(nèi)容更加穩(wěn)定,所蘊(yùn)含的知識(shí)信息也極為豐富。隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展,將這些大規(guī)模數(shù)據(jù)集中的知識(shí)信息納入知識(shí)管理的范疇已經(jīng)成為業(yè)界共識(shí),而如何有效組織和管理好這些知識(shí)信息則是當(dāng)前計(jì)算機(jī)科學(xué)技術(shù)和信息管理等學(xué)科所共同關(guān)注的研究問(wèn)題。

在大數(shù)據(jù)時(shí)代,知識(shí)組織的研究將更多關(guān)注揭示知識(shí)單元內(nèi)涵語(yǔ)義、挖掘知識(shí)外延關(guān)聯(lián)以及提供豐富靈活的知識(shí)服務(wù),而這些目標(biāo)的實(shí)現(xiàn)亟待知識(shí)組織方法和計(jì)算機(jī)領(lǐng)域的知識(shí)工程相關(guān)技術(shù)的深度融合與優(yōu)化創(chuàng)新。

大規(guī)模數(shù)據(jù)中的知識(shí)信息具有密度低、關(guān)聯(lián)多的特點(diǎn)。與傳統(tǒng)知識(shí)庫(kù)中的先驗(yàn)性分類(lèi)知識(shí)不同,大規(guī)模數(shù)據(jù)中的知識(shí)大多是通過(guò)以數(shù)據(jù)挖掘?yàn)榇淼挠?jì)算手段發(fā)現(xiàn)得到的,其知識(shí)發(fā)現(xiàn)過(guò)程在本質(zhì)上是一個(gè)數(shù)據(jù)集中所蘊(yùn)含知識(shí)信息的自底向上的演化過(guò)程,因此,大規(guī)模數(shù)據(jù)中的知識(shí)管理需要有合適的知識(shí)組織方式與其知識(shí)演化的特點(diǎn)相適應(yīng)。

數(shù)據(jù)中蘊(yùn)含的知識(shí)被人們通過(guò)各種計(jì)算手段不斷地進(jìn)行歸納、總結(jié)和演繹,從而不斷地產(chǎn)生內(nèi)容上或結(jié)構(gòu)形式上的演化。從內(nèi)容上看,知識(shí)演化可以表現(xiàn)為隱性知識(shí)與顯性知識(shí)之間的相互演化(知識(shí)螺旋)或是按照自然規(guī)律的新老交替演化[2]。結(jié)構(gòu)形式上則主要表現(xiàn)為由低級(jí)形式向高級(jí)形式的進(jìn)化或是面向需求的知識(shí)呈現(xiàn)上的變化。無(wú)論是何種類(lèi)型的演變,對(duì)于該特性的刻畫(huà)都需要保持從底層到頂層的一致性,考慮包括知識(shí)狀態(tài)演化的感知計(jì)算、演化在語(yǔ)義模式中的體現(xiàn)及演化過(guò)程表達(dá)等在內(nèi)的一系列關(guān)鍵問(wèn)題。然而傳統(tǒng)的先驗(yàn)式知識(shí)組織方式主要關(guān)注呈現(xiàn)結(jié)果,無(wú)法滿足這一知識(shí)特性。因此對(duì)大規(guī)模數(shù)據(jù)中知識(shí)的刻畫(huà)與組織,尤其是針對(duì)知識(shí)演化方面的深層探究與重新審視成為當(dāng)前知識(shí)組織方向迫切需要解決的問(wèn)題。

文章將從計(jì)算角度出發(fā),以保證知識(shí)高效有序地收斂于以知識(shí)服務(wù)為最終目的研究大規(guī)模數(shù)據(jù)的知識(shí)組織與管理。首先梳理描述知識(shí)組織與語(yǔ)義建模的研究進(jìn)程;其次剖析闡述大規(guī)模數(shù)據(jù)集下知識(shí)組織的主要情境背景,即主要特點(diǎn)與重點(diǎn)目的;最后探究包括數(shù)據(jù)建模、知識(shí)表示與知識(shí)計(jì)算在內(nèi)的核心問(wèn)題并總結(jié)全文。

2 相關(guān)研究

知識(shí)組織的概念最早由美國(guó)圖書(shū)館學(xué)家布利斯(H.E.Bliss)于1929年提出。早期關(guān)于知識(shí)組織的研究側(cè)重于利用新方法解決老問(wèn)題,著重分類(lèi)、主題詞表等傳統(tǒng)上的知識(shí)組織[3]。隨著數(shù)據(jù)量的急劇增長(zhǎng)及愈發(fā)明顯的網(wǎng)絡(luò)依賴,同時(shí)鑒于計(jì)算的發(fā)展及互操作性的重視,知識(shí)組織的探討情境逐漸被轉(zhuǎn)移到大規(guī)模數(shù)據(jù)集及網(wǎng)絡(luò)環(huán)境中,知識(shí)組織開(kāi)始進(jìn)入后網(wǎng)絡(luò)時(shí)代[4]。一般認(rèn)為數(shù)據(jù)的大量累積使得傳統(tǒng)的知識(shí)組織方式將不再完全適用。通過(guò)大數(shù)據(jù)的視角,特別是數(shù)據(jù)體積的尺寸、速度、多樣性及準(zhǔn)確性查看知識(shí)組織過(guò)程成為近年來(lái)的熱點(diǎn)研究視角[5]。隨著Web2.0對(duì)知識(shí)及其聯(lián)系的復(fù)雜度的進(jìn)一步深化,網(wǎng)絡(luò)環(huán)境中的新元素、規(guī)則、目標(biāo)流程及互動(dòng)方式開(kāi)始成為知識(shí)組織過(guò)程中不可缺少的考慮因素[6]。

在上層的知識(shí)組織探究中,知識(shí)組織的理論探究問(wèn)題仍然保持熱度,研究者從原則[7]、語(yǔ)義關(guān)系[8,9]或組織方式[10]等視角對(duì)知識(shí)組織進(jìn)行重新審視,從經(jīng)濟(jì)學(xué)角度探究知識(shí)組織的重要性[11]。將知識(shí)組織劃分為認(rèn)識(shí)論、理論和方法論三個(gè)研究領(lǐng)域進(jìn)行設(shè)計(jì)與研究[12];以面向共享、面向知識(shí)服務(wù)等角度設(shè)計(jì)知識(shí)組織策略,改進(jìn)優(yōu)化知識(shí)組織也具有一定意義[13]。在底層實(shí)踐構(gòu)建上,計(jì)算機(jī)技術(shù)的進(jìn)步與創(chuàng)新推進(jìn)著知識(shí)組織的革新。利用本體、語(yǔ)義網(wǎng)、元數(shù)據(jù)、關(guān)聯(lián)數(shù)據(jù)、標(biāo)簽[14-17]等概念與技術(shù),對(duì)各領(lǐng)域知識(shí)設(shè)計(jì)知識(shí)組織模型成為研究熱點(diǎn)。

綜上可知,每個(gè)層次的知識(shí)組織研究都在向著契合新環(huán)境的方向優(yōu)化。然而大多數(shù)知識(shí)組織研究是基于對(duì)外部因素的視角,對(duì)于知識(shí)本身,如知識(shí)演變等則相對(duì)較少。因此如何將知識(shí)本身的特性深度融合到知識(shí)組織中成為重要的研究課題。隨著計(jì)算機(jī)科學(xué)與技術(shù)在知識(shí)管理工作中的全面滲透,從計(jì)算的角度對(duì)知識(shí)組織進(jìn)行審視將更為全面且深入。從計(jì)算的角度上來(lái)看,大規(guī)模數(shù)據(jù)集下知識(shí)組織的基礎(chǔ)主要體現(xiàn)為對(duì)表達(dá)知識(shí)的各種語(yǔ)義信息的組織。因此,我們認(rèn)為在該層次上知識(shí)組織關(guān)鍵在于語(yǔ)義數(shù)據(jù)建模方法及基于語(yǔ)義模型的知識(shí)信息結(jié)構(gòu)演化的表達(dá)。

關(guān)于語(yǔ)義數(shù)據(jù)建模方面的研究可以大概分為專(zhuān)門(mén)的語(yǔ)義數(shù)據(jù)模型研究與語(yǔ)義數(shù)據(jù)標(biāo)準(zhǔn)的探討兩個(gè)方向。在語(yǔ)義數(shù)據(jù)模型上,早期的研究通常將語(yǔ)義信息包含在實(shí)體與聯(lián)系的屬性上。這種語(yǔ)義數(shù)據(jù)模型或重視顯式類(lèi)型構(gòu)造函數(shù)[18],或重視屬性的探究[19],雖簡(jiǎn)單易懂,但對(duì)“聯(lián)系”的表達(dá)能力卻有限,尤其是在對(duì)復(fù)雜的聯(lián)系上。20世紀(jì)70年代后期開(kāi)始,以面向?qū)ο髷?shù)據(jù)建模的角度來(lái)考察語(yǔ)義數(shù)據(jù)模型的設(shè)計(jì)與計(jì)算的方法開(kāi)始逐漸被研究?jī)?yōu)化[20]。該類(lèi)型的語(yǔ)義數(shù)據(jù)建模利用角色、關(guān)聯(lián)等概念后雖改進(jìn)了無(wú)法反映事物多刻面語(yǔ)義信息的短板,卻仍存在難以簡(jiǎn)便描述動(dòng)態(tài)語(yǔ)義演化問(wèn)題[21]。為解決語(yǔ)義信息演化難題,研究者們進(jìn)行了不一樣的嘗試。一種是采用多分類(lèi)的方法[22],將每一個(gè)對(duì)象描述成具有動(dòng)態(tài)得失過(guò)程的實(shí)體。該方法在刻畫(huà)對(duì)象的動(dòng)態(tài)性上具有優(yōu)勢(shì),卻難以描述上下文聯(lián)系與類(lèi)型的層次性。另外一種方式是目前較為流行的角色模型。角色模型利用對(duì)象與所扮演的角色來(lái)表示語(yǔ)義信息,雖解決了上下文聯(lián)系問(wèn)題,但表現(xiàn)得并不自然,同時(shí)還存在角色內(nèi)在關(guān)系難以描述的關(guān)鍵問(wèn)題[23]。圖模型也是近年來(lái)被研究者所重視的語(yǔ)義模型之一。大多數(shù)的圖模型關(guān)注于節(jié)點(diǎn)、邊、甚至是子圖所包含的語(yǔ)義信息[24],試圖豐富模型的表達(dá)能力,但在后驗(yàn)語(yǔ)義演化與動(dòng)態(tài)的角色的表現(xiàn)上卻不盡如人意。

在語(yǔ)義數(shù)據(jù)標(biāo)準(zhǔn)的探究上,目前比較流行的是RDF、OWL等。RDF采用三元組形式描述數(shù)據(jù)原始信息,它在結(jié)構(gòu)上極為簡(jiǎn)單,實(shí)際上卻沒(méi)有語(yǔ)義表達(dá)能力[25]。RDF把語(yǔ)義表現(xiàn)問(wèn)題都推給上層應(yīng)用,這樣RDF數(shù)據(jù)集在處理上有優(yōu)勢(shì),但在建模上卻作用微小。RDFS在RDF基礎(chǔ)上定義了術(shù)語(yǔ)、概念等,可以表示一些簡(jiǎn)單的語(yǔ)義,但在復(fù)雜場(chǎng)景中,缺少很多常用特征,語(yǔ)義表達(dá)能力仍較弱。OWL是本體描述的標(biāo)準(zhǔn),是典型的傳統(tǒng)知識(shí)表示形式。嚴(yán)格而言,ONL并不是數(shù)據(jù)模型,且沒(méi)有較好的類(lèi)似于集合代數(shù)方面的計(jì)算描述機(jī)制與查詢表達(dá)優(yōu)化機(jī)制。現(xiàn)有的基于OWL的數(shù)據(jù)處理通常還是會(huì)將OWL知識(shí)轉(zhuǎn)換為RDF來(lái)進(jìn)行處理,而這種消耗相對(duì)較大。同時(shí),無(wú)論是RDF還是OWL仍然使用的是傳統(tǒng)的數(shù)據(jù)查詢進(jìn)行知識(shí)復(fù)用的方式,無(wú)法體現(xiàn)出知識(shí)分析、演化方面的特點(diǎn)。

隨著大量語(yǔ)義數(shù)據(jù)的累積與知識(shí)服務(wù)要求的日漸提高,如何高效處理、實(shí)時(shí)查詢海量的語(yǔ)義數(shù)據(jù),對(duì)知識(shí)進(jìn)行發(fā)現(xiàn)并實(shí)現(xiàn)知識(shí)增值,成為一個(gè)非常重要且具有挑戰(zhàn)性的科學(xué)問(wèn)題,因此語(yǔ)義數(shù)據(jù)的建模、計(jì)算與表達(dá)都應(yīng)被提升到這樣一個(gè)高度上?,F(xiàn)有語(yǔ)義建模的研究主要考慮已加工過(guò)的語(yǔ)義數(shù)據(jù),同時(shí)也存在部分模型對(duì)知識(shí)的演化提供了一定程度上的支持(角色模型等)。但這些模型并沒(méi)有真正考慮到如何直接處理以文本為代表的原始語(yǔ)義數(shù)據(jù)。同時(shí)在語(yǔ)義數(shù)據(jù)標(biāo)準(zhǔn)的探究上也存在著知識(shí)分析、演化方面的缺陷。鑒于這樣的一種狀態(tài),利用語(yǔ)義數(shù)據(jù)建模對(duì)知識(shí)組織進(jìn)行重新的審視與探究也變得必要且有意義。

3 大規(guī)模數(shù)據(jù)中知識(shí)的特點(diǎn)

大規(guī)模數(shù)據(jù)集用傳統(tǒng)數(shù)據(jù)管理手段難以(也不必要)有效進(jìn)行事務(wù)型數(shù)據(jù)管理。相較于早期知識(shí)組織方法和目前流行的知識(shí)庫(kù)形式而言,在大數(shù)據(jù)和Web2.0的雙重影響下,大規(guī)模數(shù)據(jù)集中的知識(shí)表示出以下幾個(gè)特征:

(1)種類(lèi)多元化

與傳統(tǒng)的基于單一數(shù)據(jù)源的知識(shí)庫(kù)不同,大規(guī)模數(shù)據(jù)中的知識(shí)種類(lèi)分散,且并無(wú)明確的主題。例如,由微博信息匯集的數(shù)據(jù)源,其包含的知識(shí)門(mén)類(lèi)繁多且水平參差不齊。同時(shí),知識(shí)在形式結(jié)構(gòu)上呈現(xiàn)出數(shù)據(jù)模式的多樣化,數(shù)據(jù)集中的知識(shí)可以基于多種描述方法并通過(guò)多種數(shù)據(jù)模式呈現(xiàn),甚至?xí)捎貌煌襟w格式,例如跨媒體信息源中的知識(shí)往往是由圖片、聲音、文字共同體現(xiàn)的。此外,知識(shí)粒度也存在著多樣化特點(diǎn),不同抽象粒度的分類(lèi)知識(shí)和規(guī)則知識(shí)與具體的實(shí)體-關(guān)系知識(shí)廣泛并存于數(shù)據(jù)集中,知識(shí)的多樣化對(duì)知識(shí)組織工作帶來(lái)了新挑戰(zhàn),尤其是對(duì)知識(shí)獲取與處理階段的知識(shí)融合工作提出了更高的要求。

(2)結(jié)構(gòu)形式網(wǎng)絡(luò)化

大規(guī)模數(shù)據(jù)中的知識(shí)信息在繼承傳統(tǒng)的知識(shí)分類(lèi)體系的基礎(chǔ)上,更呈現(xiàn)出明顯的網(wǎng)絡(luò)化特征。大規(guī)模數(shù)據(jù)中的知識(shí)信息通常表征各類(lèi)實(shí)體及其關(guān)聯(lián),自然構(gòu)成了結(jié)構(gòu)復(fù)雜的信息網(wǎng)絡(luò)(如目前流行的關(guān)聯(lián)數(shù)據(jù)集LOD)。這種網(wǎng)絡(luò)化的知識(shí)信息難以用單純樹(shù)狀結(jié)構(gòu)的知識(shí)表示形式進(jìn)行描述,而后者被廣泛用于早期的分類(lèi)目錄直到當(dāng)前流行的本體方法。同時(shí),網(wǎng)絡(luò)化的知識(shí)信息本身又成為新知識(shí)的發(fā)現(xiàn)來(lái)源,近年來(lái)以社會(huì)網(wǎng)絡(luò)挖掘?yàn)榇淼膱D結(jié)構(gòu)數(shù)據(jù)中的知識(shí)發(fā)現(xiàn)成為研究熱點(diǎn),表明知識(shí)結(jié)構(gòu)網(wǎng)絡(luò)化作為知識(shí)的基礎(chǔ)特性之一正在影響著當(dāng)前知識(shí)組織管理的理論和方法的多個(gè)方面。為此我們需要基于知識(shí)的關(guān)聯(lián)特性重構(gòu)知識(shí)的表現(xiàn)形式,并重新探究知識(shí)獲取、處理、表達(dá)與分享等組織流程。

(3)源數(shù)據(jù)非結(jié)構(gòu)化

知識(shí)源的多元多維化進(jìn)一步促進(jìn)非結(jié)構(gòu)化數(shù)據(jù)成為知識(shí)源的主要組成成分。結(jié)構(gòu)化數(shù)據(jù)是已被標(biāo)注的信息,在語(yǔ)義信息的解析過(guò)程中存在較低不確定性的概率,是現(xiàn)有知識(shí)組織較為成熟的數(shù)據(jù)類(lèi)型。而非結(jié)構(gòu)化的數(shù)據(jù)如自然語(yǔ)言文本、多媒體數(shù)據(jù)等等,由于結(jié)構(gòu)和內(nèi)涵上的語(yǔ)義不明確,在進(jìn)行語(yǔ)義分析時(shí)往往具有更大的不確定性。這種不確定性的表達(dá)與消除直接影響了知識(shí)組織的整個(gè)流程,包括數(shù)據(jù)組織結(jié)構(gòu)、知識(shí)表示與查詢等都需要對(duì)該問(wèn)題進(jìn)行更深刻的認(rèn)識(shí)與探討。

(4)狀態(tài)頻繁演化

大規(guī)模數(shù)據(jù)集蘊(yùn)含的知識(shí)在對(duì)數(shù)據(jù)的多角度、多層次的利用過(guò)程中一直處于動(dòng)態(tài)演化的狀態(tài)。知識(shí)演化的方式不僅表現(xiàn)在內(nèi)容上的改進(jìn)、擴(kuò)充或刪減,更體現(xiàn)在知識(shí)結(jié)構(gòu)更新與抽象程度的改變上。知識(shí)的演化特性要求知識(shí)組織具有“彈性”,即能夠具有隨著知識(shí)狀態(tài)的改變,進(jìn)行知識(shí)重組織與服務(wù)的能力。這樣一種彈性能力要求對(duì)知識(shí)信息的物理組織結(jié)構(gòu)從底層構(gòu)建開(kāi)始就符合其動(dòng)態(tài)演化的需求。此外,隨著對(duì)知識(shí)服務(wù)高效性和準(zhǔn)確性要求的提高,知識(shí)的演化將逐漸從被動(dòng)演化過(guò)渡到主動(dòng)演化,即知識(shí)管理系統(tǒng)需要主動(dòng)發(fā)現(xiàn)新的服務(wù)需求并驅(qū)動(dòng)知識(shí)演化。大規(guī)模數(shù)據(jù)集上的知識(shí)演化并非是全向的和無(wú)目的的,而是以知識(shí)本體和知識(shí)需求為導(dǎo)向。本體作為一種抽象級(jí)別較高的知識(shí),能夠在知識(shí)演化中作為從底層語(yǔ)義數(shù)據(jù)向高層知識(shí)信息演化的目標(biāo)方向。而用戶的知識(shí)需求則應(yīng)該以知識(shí)本體的方式來(lái)表現(xiàn),因此大規(guī)模數(shù)據(jù)中的知識(shí)演化可以看作是以“理解或解釋”本體為目標(biāo)的,從而能夠?yàn)橹R(shí)的主動(dòng)、自動(dòng)演化奠定基礎(chǔ)。

4 大規(guī)模數(shù)據(jù)中知識(shí)組織的目標(biāo)

知識(shí)的無(wú)序狀態(tài)造成低利用率,因此對(duì)知識(shí)資源進(jìn)行有效控制與序化以促進(jìn)知識(shí)傳播利用一直被認(rèn)為是知識(shí)組織的基本目標(biāo)。大規(guī)模數(shù)據(jù)集中的知識(shí)信息管理需要滿足多層次、多角度的知識(shí)服務(wù)需求,其知識(shí)組織的目標(biāo)主要體現(xiàn)在為海量知識(shí)數(shù)據(jù)的復(fù)用、發(fā)現(xiàn)與增值等方面的需求提供有效支撐。

(1)知識(shí)復(fù)用

知識(shí)的復(fù)用是根據(jù)知識(shí)服務(wù)需求對(duì)已有知識(shí)進(jìn)行可重復(fù)利用。在大規(guī)模數(shù)據(jù)中,知識(shí)復(fù)用的主要方式從以往的知識(shí)查詢演變?yōu)楹A恐R(shí)的相關(guān)性搜索,有效搜索內(nèi)容從原始文檔演變?yōu)橹R(shí)信息。例如目前流行的知識(shí)圖譜,就可以被看作是一種基于大規(guī)模知識(shí)信息的相關(guān)搜索,實(shí)現(xiàn)知識(shí)圖譜需要用到問(wèn)答系統(tǒng)和信息檢索等多個(gè)方向的核心技術(shù)。知識(shí)復(fù)用服務(wù)要求知識(shí)組織在結(jié)構(gòu)形式、遍歷方法、搜索策略等方面適應(yīng)大規(guī)模、高并發(fā)、多刻面的知識(shí)搜索以提高檢準(zhǔn)率及查全率。未來(lái)的知識(shí)復(fù)用方式還會(huì)更加豐富多樣,可以預(yù)見(jiàn)的是知識(shí)條目的查詢與知識(shí)相關(guān)搜索將無(wú)縫融合,為用戶提供更好的知識(shí)服務(wù)體驗(yàn)。

(2)知識(shí)發(fā)現(xiàn)

復(fù)雜多樣的知識(shí)源以及非結(jié)構(gòu)化源數(shù)據(jù)在聚集海量數(shù)據(jù)的同時(shí)也造成了知識(shí)信息的模糊型,影響知識(shí)發(fā)現(xiàn)的時(shí)間與效果。在大規(guī)模語(yǔ)義數(shù)據(jù)中進(jìn)行高效的知識(shí)挖掘是有效知識(shí)發(fā)現(xiàn)的必然要求。知識(shí)發(fā)現(xiàn)的計(jì)算復(fù)雜度普遍較高,需求數(shù)據(jù)集的底層管理設(shè)施為之提供相應(yīng)的支撐機(jī)制。例如針對(duì)并行化語(yǔ)義數(shù)據(jù)處理及其基礎(chǔ)上的知識(shí)挖掘工作,需要提供合適的數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)、高效的索引機(jī)制以及對(duì)應(yīng)的存儲(chǔ)和索引分片和分片方式等,這些都是知識(shí)組織工作所必須考慮的重點(diǎn)與難點(diǎn)問(wèn)題。

(3)知識(shí)增值

知識(shí)增值并非盲目的知識(shí)信息擴(kuò)展,而是針對(duì)用戶需求進(jìn)行的、以創(chuàng)造價(jià)值為目的的知識(shí)信息的定向擴(kuò)充與更新。能夠支撐在知識(shí)增值過(guò)程中面向用戶,提供高效靈活的知識(shí)拓展及個(gè)性化知識(shí)推薦是知識(shí)服務(wù)的新要求。采取合理的方式表現(xiàn)與表達(dá)方法,記錄與挖掘用戶的個(gè)性化需求以提供知識(shí)服務(wù)是知識(shí)增值的最終目的。

(4)服務(wù)需求演進(jìn)

知識(shí)組織的最終目的是為提供適度維度與粒度且具有定向性的用戶知識(shí)服務(wù)。利用大規(guī)模數(shù)據(jù)集的天然優(yōu)勢(shì),對(duì)知識(shí)進(jìn)行有效組織后,對(duì)知識(shí)進(jìn)行復(fù)用、發(fā)現(xiàn)與增值成為大規(guī)模數(shù)據(jù)中知識(shí)服務(wù)需求的一個(gè)自然演進(jìn)過(guò)程。知識(shí)的復(fù)用、發(fā)現(xiàn)與增值具有前后順序關(guān)聯(lián)且相互影響。知識(shí)復(fù)用為知識(shí)發(fā)現(xiàn)提供豐富知識(shí)準(zhǔn)備,知識(shí)的復(fù)用與發(fā)現(xiàn)為知識(shí)增值提供良好數(shù)據(jù)基礎(chǔ)。相反,知識(shí)增值也為知識(shí)的復(fù)用及發(fā)現(xiàn)指明更為準(zhǔn)確的查詢與發(fā)現(xiàn)方向。知識(shí)復(fù)用、發(fā)現(xiàn)和增值需求不僅要求知識(shí)信息在底層構(gòu)建時(shí)充分考慮機(jī)器可讀性,更重要的是在組織結(jié)構(gòu)上知識(shí)信息更應(yīng)切合新知識(shí)的發(fā)現(xiàn)和針對(duì)特定需求的定向知識(shí)增值的趨勢(shì)。

5 大規(guī)模數(shù)據(jù)中知識(shí)組織的核心問(wèn)題

大規(guī)模數(shù)據(jù)中的知識(shí)組織構(gòu)建過(guò)程是一個(gè)復(fù)雜且系統(tǒng)的過(guò)程。根據(jù)上述知識(shí)組織的特點(diǎn)和目的,可以認(rèn)為,隨著計(jì)算機(jī)技術(shù)的發(fā)展與數(shù)據(jù)資源的累積,知識(shí)組織問(wèn)題的重點(diǎn)不再是僅包括傳統(tǒng)宏觀的經(jīng)驗(yàn)性知識(shí)的組織或是知識(shí)庫(kù)中的規(guī)則與事實(shí)的組織,更需要將作為知識(shí)載體的計(jì)算處理工作納入研究范圍中。因此,從計(jì)算角度考察知識(shí)組織的核心內(nèi)容與問(wèn)題是研究大規(guī)模數(shù)據(jù)集下知識(shí)組織的主要途徑。

從計(jì)算角度來(lái)看,大規(guī)模數(shù)據(jù)中的知識(shí)組織的基礎(chǔ)和核心研究?jī)?nèi)容就是如何組織知識(shí)數(shù)據(jù)以實(shí)現(xiàn)知識(shí)服務(wù)需求可有效計(jì)算性。只有在立足于語(yǔ)義數(shù)據(jù)合理建模與高效管理基礎(chǔ)上,實(shí)現(xiàn)知識(shí)獲取、管理、復(fù)用、發(fā)現(xiàn)和增值等需求可有效計(jì)算,計(jì)算機(jī)才能夠從大規(guī)模數(shù)據(jù)中準(zhǔn)確地獲得知識(shí)并主動(dòng)配合知識(shí)的演化方向,進(jìn)行高效的知識(shí)信息組織管理,進(jìn)而實(shí)現(xiàn)更為精確且相關(guān)度高的知識(shí)搜索與發(fā)現(xiàn)。

數(shù)據(jù)作為知識(shí)的載體,是人們對(duì)事物認(rèn)識(shí)的符號(hào)表示。這種反映事物認(rèn)識(shí)的數(shù)據(jù)被定義為語(yǔ)義數(shù)據(jù)。一般情況下可以認(rèn)為,知識(shí)的載體形式就是語(yǔ)義數(shù)據(jù)。語(yǔ)義數(shù)據(jù)種類(lèi)繁多,目前并沒(méi)有被準(zhǔn)確地定義。最常見(jiàn)的語(yǔ)義數(shù)據(jù)形式是自然語(yǔ)言形成的文本數(shù)據(jù)。其他類(lèi)型的數(shù)據(jù),只要符合反映對(duì)事物的認(rèn)識(shí)這一標(biāo)準(zhǔn),無(wú)論形態(tài)如何都可以被稱作是一種語(yǔ)義數(shù)據(jù)。盡管如此,通常研究者傾向于認(rèn)為語(yǔ)義數(shù)據(jù)是自然語(yǔ)言文本數(shù)據(jù)或更加規(guī)范化的有語(yǔ)義標(biāo)注的結(jié)構(gòu)化/半結(jié)構(gòu)化數(shù)據(jù)。對(duì)大規(guī)模數(shù)據(jù)中的知識(shí)進(jìn)行有效組織與利用,需要從語(yǔ)義數(shù)據(jù)管理與利用的角度解決相關(guān)理論問(wèn)題。文章認(rèn)為當(dāng)前存在如下方面的問(wèn)題有待進(jìn)一步探索。

5.1 語(yǔ)義數(shù)據(jù)建模

要解決知識(shí)組織有效計(jì)算問(wèn)題,首先就是要根據(jù)知識(shí)需求特點(diǎn)來(lái)組織語(yǔ)義數(shù)據(jù),其本質(zhì)就是語(yǔ)義數(shù)據(jù)建模。因此在進(jìn)行知識(shí)組織時(shí)需先探究設(shè)計(jì)合適的語(yǔ)義數(shù)據(jù)模型,使語(yǔ)義數(shù)據(jù)建模既能反映上層知識(shí)服務(wù)準(zhǔn)則又能在結(jié)構(gòu)上使語(yǔ)義數(shù)據(jù)與知識(shí)信息保持一致,保證知識(shí)組織工作具有直接轉(zhuǎn)換為組織管理語(yǔ)義數(shù)據(jù)的能力。

作為知識(shí)組織基礎(chǔ)與核心內(nèi)容的語(yǔ)義數(shù)據(jù)建模,需要考慮以下三個(gè)方面的問(wèn)題:

(1)非結(jié)構(gòu)化數(shù)據(jù)中語(yǔ)義信息的表達(dá)

語(yǔ)義數(shù)據(jù)模型的基本任務(wù)是將所要處理的主要語(yǔ)義信息類(lèi)型有效表示?,F(xiàn)有語(yǔ)義數(shù)據(jù)模型主要關(guān)注如何表示已解析標(biāo)注好的結(jié)構(gòu)化語(yǔ)義信息,且在應(yīng)用時(shí)直接面向領(lǐng)域里已有的知識(shí)結(jié)構(gòu),但在大規(guī)模數(shù)據(jù)處理工作中,更需要語(yǔ)義數(shù)據(jù)模型能夠反映以文本數(shù)據(jù)為代表的常見(jiàn)非結(jié)構(gòu)化數(shù)據(jù)中的語(yǔ)義信息。非結(jié)構(gòu)化數(shù)據(jù)與傳統(tǒng)結(jié)構(gòu)化語(yǔ)義數(shù)據(jù)之間存在的“語(yǔ)義鴻溝”,一直是語(yǔ)義計(jì)算所關(guān)注的重點(diǎn)與難點(diǎn)問(wèn)題。非結(jié)構(gòu)化數(shù)據(jù)未經(jīng)過(guò)人工分類(lèi),其蘊(yùn)含的語(yǔ)義信息存在不確定性(原始數(shù)據(jù)在被解析為語(yǔ)義信息時(shí)會(huì)有多種可能或歧義)和多刻面性(即從不同層次、方面去考查原始數(shù)據(jù)可得到不同側(cè)面的語(yǔ)義信息)。因此,在語(yǔ)義數(shù)據(jù)模型的支持下,將原始數(shù)據(jù)中蘊(yùn)含的未經(jīng)標(biāo)注的非結(jié)構(gòu)化語(yǔ)義信息與已標(biāo)注的結(jié)構(gòu)化/半結(jié)構(gòu)化語(yǔ)義信息進(jìn)行統(tǒng)一表現(xiàn)與處理是大規(guī)模數(shù)據(jù)下的知識(shí)組織中更應(yīng)被關(guān)注的問(wèn)題。

(2)知識(shí)演化在語(yǔ)義模式中的體現(xiàn)

知識(shí)的頻繁演化促使反映知識(shí)特征的語(yǔ)義數(shù)據(jù)也應(yīng)具有演化特性。傳統(tǒng)語(yǔ)義數(shù)據(jù)模型大都屬于先驗(yàn)型設(shè)計(jì)模式,考慮實(shí)際應(yīng)用中的實(shí)體與關(guān)聯(lián),在應(yīng)對(duì)知識(shí)狀態(tài)頻繁、主動(dòng)演化的情況時(shí)并不能有效地進(jìn)行修正與改進(jìn),缺少模型的穩(wěn)健性及彈性。此外已有語(yǔ)義數(shù)據(jù)模型偏好于對(duì)結(jié)果的直接呈現(xiàn),很少關(guān)注過(guò)程描述,這也是語(yǔ)義數(shù)據(jù)模型對(duì)知識(shí)演化過(guò)程進(jìn)行描述的主要障礙之一。因此,要適應(yīng)大規(guī)模數(shù)據(jù)中知識(shí)演化需求,需要語(yǔ)義數(shù)據(jù)模型在結(jié)構(gòu)上體現(xiàn)出足夠的靈活性,并且能夠與知識(shí)信息在演化方向,演化形式和演化內(nèi)容等方面相適應(yīng)與配合。

(3)海量數(shù)據(jù)的語(yǔ)義分析

對(duì)海量原始數(shù)據(jù)進(jìn)行深入語(yǔ)義分析是知識(shí)演化中的常見(jiàn)手段,是進(jìn)行知識(shí)增值服務(wù)的基礎(chǔ),在知識(shí)管理的很多任務(wù)中也處于核心地位。語(yǔ)義數(shù)據(jù)模型需要從數(shù)據(jù)結(jié)構(gòu)與原子計(jì)算操作兩方面考慮如何適應(yīng)數(shù)據(jù)語(yǔ)義分析的需求。一方面,模型的數(shù)據(jù)結(jié)構(gòu)應(yīng)能有效支持語(yǔ)義分析時(shí)涉及的大量歸納計(jì)算(如頻繁模式的挖掘),另一個(gè)方面,模型應(yīng)提供用于實(shí)現(xiàn)語(yǔ)義分析的原子計(jì)算,滿足上層語(yǔ)義分析需求能夠方便表達(dá)并能在底層得到相應(yīng)實(shí)現(xiàn)的要求。

5.2 知識(shí)表示

在數(shù)據(jù)建模后的知識(shí)信息表達(dá),即知識(shí)表示,成為知識(shí)組織過(guò)程中下一個(gè)核心關(guān)鍵問(wèn)題。對(duì)知識(shí)表示的研究在知識(shí)庫(kù)相關(guān)研究中已積累一些較為典型的方法與成果,是個(gè)傳統(tǒng)的研究課題[26]。一般而言,傳統(tǒng)的知識(shí)信息的表示主要關(guān)注事實(shí)性知識(shí)與知識(shí)規(guī)則的表示,采用主要包括一階謂詞邏輯表示法,基于規(guī)則的產(chǎn)生式系統(tǒng)表示法,語(yǔ)義網(wǎng)絡(luò)表示法及本體表示法等在內(nèi)的一系列知識(shí)表示方法。雖然大規(guī)模數(shù)據(jù)情境下的知識(shí)組織特點(diǎn)與目標(biāo)都發(fā)生了演變與深化,事實(shí)性知識(shí)與規(guī)則的表示仍是知識(shí)表示問(wèn)題的主要內(nèi)容之一。因此為更高效適應(yīng)大規(guī)模數(shù)據(jù)帶來(lái)的改變,傳統(tǒng)知識(shí)表示方式需要進(jìn)行一定程度的優(yōu)化改進(jìn),使對(duì)事實(shí)性知識(shí)與知識(shí)規(guī)則的描述與表示能更有效與自然。除傳統(tǒng)知識(shí)表示問(wèn)題外,文章認(rèn)為分類(lèi)知識(shí)的表示、時(shí)空知識(shí)的表示、決策知識(shí)的表示及演化知識(shí)的表示亦是大規(guī)模數(shù)據(jù)下知識(shí)表示課題中關(guān)鍵性問(wèn)題。

(1)分類(lèi)知識(shí)的表示

描述事物間類(lèi)別關(guān)系的分類(lèi)知識(shí)是各種知識(shí)的基礎(chǔ),也是傳統(tǒng)知識(shí)組織的主要方式與內(nèi)容。隨著網(wǎng)絡(luò)化知識(shí)信息的大量涌現(xiàn),傳統(tǒng)的基于先驗(yàn)式分類(lèi)體系的知識(shí)表示與組織方式不再完全適用。研究者們已經(jīng)開(kāi)始嘗試研究利用本體、鏈接路徑或結(jié)構(gòu)演化等方式對(duì)知識(shí)分類(lèi)準(zhǔn)則進(jìn)行優(yōu)化[27-29],但目前在分類(lèi)知識(shí)表示上以本體知識(shí)為代表,仍主要沿用基于謂詞邏輯的樹(shù)狀類(lèi)別形式。隨著網(wǎng)絡(luò)化知識(shí)中語(yǔ)義及結(jié)構(gòu)的進(jìn)一步復(fù)雜化,這種傳統(tǒng)的邏輯分類(lèi)方式已經(jīng)難以有效刻畫(huà)語(yǔ)義數(shù)據(jù)和知識(shí)信息中豐富的關(guān)聯(lián)特征。因此我們認(rèn)為,大規(guī)模數(shù)據(jù)集中分類(lèi)知識(shí)的表示方法,需要基于合適的語(yǔ)義數(shù)據(jù)模型著重研究不確定性知識(shí)的模糊分類(lèi)及事物多刻面信息分類(lèi)的問(wèn)題。這是因?yàn)椋孩俜墙Y(jié)構(gòu)化數(shù)據(jù)中的知識(shí)信息因非結(jié)構(gòu)化數(shù)據(jù)本身的語(yǔ)義不確定性特點(diǎn),其分類(lèi)方式也存在著不確定性;②大規(guī)模數(shù)據(jù)中的分類(lèi)知識(shí)需要兼顧后驗(yàn)式的、基于統(tǒng)計(jì)的分類(lèi)方法,因此分類(lèi)的不確定性是其內(nèi)在特征;③事物的多類(lèi)別事實(shí)是事物多刻面語(yǔ)義信息的產(chǎn)生根源,也是網(wǎng)絡(luò)化知識(shí)信息的產(chǎn)生根源,而對(duì)其進(jìn)行合理有效的表示則是未來(lái)進(jìn)行高效的知識(shí)發(fā)現(xiàn)服務(wù)的基礎(chǔ)。

(2)時(shí)空知識(shí)的表示

大規(guī)模數(shù)據(jù)集中知識(shí)信息的一個(gè)重要組成部分是對(duì)現(xiàn)實(shí)事物的描述(如新聞、評(píng)論等等),其核心內(nèi)容是反映事物發(fā)生發(fā)展的時(shí)空知識(shí)信息。對(duì)時(shí)空知識(shí)的表示一直是數(shù)據(jù)管理領(lǐng)域的一個(gè)重要問(wèn)題,傳統(tǒng)方法主要從表示事物的時(shí)空坐標(biāo)空間和坐標(biāo)間關(guān)系著手來(lái)刻畫(huà)事物的位置物理特性。然而對(duì)于大規(guī)模數(shù)據(jù)集的知識(shí)利用目的而言,事物在時(shí)空環(huán)境中的動(dòng)態(tài)變化過(guò)程及其體現(xiàn)出的狀態(tài)、形式及結(jié)構(gòu)上的有效關(guān)聯(lián)與變化更是需要分析、表現(xiàn)和利用的重點(diǎn)內(nèi)容,如何在底層語(yǔ)義數(shù)據(jù)模型的支持下描述這些內(nèi)容,形成事物的時(shí)空知識(shí)網(wǎng)絡(luò)并能有效的進(jìn)行知識(shí)復(fù)用與發(fā)現(xiàn),是對(duì)事物型知識(shí)信息進(jìn)行組織所必須解決的問(wèn)題。以工作流知識(shí)表示為代表的研究工作已經(jīng)在流程知識(shí)表示方面積累了很多成果,而如何將已有的流程表示方法與原始數(shù)據(jù)集的時(shí)空知識(shí)信息獲取方法有效結(jié)合,實(shí)現(xiàn)從原始的時(shí)空語(yǔ)義數(shù)據(jù)中獲取組織時(shí)空知識(shí),并進(jìn)一步與時(shí)空知識(shí)服務(wù)無(wú)縫連接,還有待深入研究。

(3)決策知識(shí)的表示

大數(shù)據(jù)時(shí)代的決策管理所依賴的數(shù)據(jù)源正在從相對(duì)單一的知識(shí)庫(kù)、案例庫(kù)向更加復(fù)雜多樣的網(wǎng)絡(luò)數(shù)據(jù)發(fā)展,面向大數(shù)據(jù)的數(shù)據(jù)治理(Data Governance)技術(shù)已經(jīng)開(kāi)始應(yīng)用于管理信息系統(tǒng)。對(duì)用于管理決策的大規(guī)模數(shù)據(jù)集而言,其知識(shí)內(nèi)容也會(huì)相應(yīng)地從傳統(tǒng)的規(guī)則型知識(shí)擴(kuò)展到網(wǎng)絡(luò)化知識(shí),決策知識(shí)的表示形式將不再是以分類(lèi)知識(shí)為主,而是更應(yīng)該凸顯出知識(shí)的關(guān)聯(lián)性、不確定性和可類(lèi)比性。首先,為管理決策提供依據(jù)的原始知識(shí)是海量的、多元的、關(guān)聯(lián)的,如何圍繞決策的主題有效組織與融合這些海量知識(shí)數(shù)據(jù),以進(jìn)行面向決策計(jì)算任務(wù)的高效查詢搜索,將是決策知識(shí)表示的一個(gè)基礎(chǔ)問(wèn)題。其次,決策知識(shí)更加注重從多個(gè)方面為決策提供相關(guān)支持信息,知識(shí)信息的相關(guān)性、準(zhǔn)確性的程度等等都需要用不確定性方法來(lái)表示;第三,面向決策的大規(guī)模數(shù)據(jù)集將提供更加豐富的決策相關(guān)案例,但案例的質(zhì)量、相似度以及可供借鑒的信息,都需通過(guò)專(zhuān)門(mén)的知識(shí)表示方法來(lái)對(duì)其進(jìn)行刻畫(huà)后再進(jìn)行合理評(píng)估。

(4)演化知識(shí)的表示

知識(shí)演化提供一個(gè)獨(dú)特且強(qiáng)大的理解并創(chuàng)造知識(shí)的路線圖[30],為知識(shí)發(fā)現(xiàn)與增值創(chuàng)造更豐富且相關(guān)的數(shù)據(jù)基礎(chǔ)。研究知識(shí)信息在演化過(guò)程中體現(xiàn)出的特性,是一個(gè)具有指導(dǎo)性、前瞻性的重要課題。傳統(tǒng)知識(shí)表示注重知識(shí)信息的橫向邏輯關(guān)聯(lián);在知識(shí)演化的過(guò)程中,演化結(jié)果與數(shù)據(jù)源間的縱向邏輯關(guān)聯(lián)和演化過(guò)程也具有豐富內(nèi)涵,可以看作是一種演化過(guò)程特有的知識(shí)。實(shí)際上,時(shí)空知識(shí)或工作流知識(shí)可以看作是演化知識(shí)的特例,例如常見(jiàn)數(shù)據(jù)溯源技術(shù)就是對(duì)數(shù)據(jù)演化的描述。但目前對(duì)于大規(guī)模數(shù)據(jù)集中的一般演化知識(shí)的描述尚缺乏普遍適用的方法,其原因在于語(yǔ)義數(shù)據(jù)的邏輯結(jié)構(gòu)復(fù)雜、演化方式多樣、演化目的不確定。為追蹤大規(guī)模數(shù)據(jù)集中的知識(shí)演化軌跡,演化知識(shí)的表示需要在刻畫(huà)知識(shí)信息內(nèi)容和結(jié)構(gòu)的狀態(tài)變化過(guò)程的基礎(chǔ)上,兼顧知識(shí)信息的邏輯性、不確定性和一致性。

5.3 知識(shí)服務(wù)計(jì)算

大規(guī)模數(shù)據(jù)集的知識(shí)庫(kù)基于語(yǔ)義數(shù)據(jù)集建立,在領(lǐng)域本體知識(shí)的語(yǔ)義數(shù)據(jù)表現(xiàn)基礎(chǔ)上,知識(shí)服務(wù)的計(jì)算自然形成了語(yǔ)義數(shù)據(jù)集上以知識(shí)查詢、搜索和知識(shí)發(fā)現(xiàn)為代表的知識(shí)計(jì)算。實(shí)現(xiàn)知識(shí)服務(wù)的有效計(jì)算是計(jì)算觀點(diǎn)下知識(shí)組織的根本目標(biāo),知識(shí)的復(fù)用、發(fā)現(xiàn)和增值都需要以底層的知識(shí)計(jì)算框架為支撐。相對(duì)于以往的面向具體任務(wù)的語(yǔ)義信息處理工作(如信息抽取、語(yǔ)義理解、信息搜索和知識(shí)庫(kù)查詢等等)而言,大規(guī)模數(shù)據(jù)集上的知識(shí)計(jì)算將逐步向標(biāo)準(zhǔn)化、平臺(tái)化的趨勢(shì)發(fā)展,這個(gè)過(guò)程需要有更強(qiáng)的計(jì)算理論和實(shí)踐方法做指引與支持。文章認(rèn)為在知識(shí)計(jì)算的研究方向上將會(huì)重點(diǎn)關(guān)注下面幾個(gè)問(wèn)題。

(1)語(yǔ)義計(jì)算范型

大規(guī)模數(shù)據(jù)集上的知識(shí)服務(wù)類(lèi)型多樣,通過(guò)底層語(yǔ)義計(jì)算的標(biāo)準(zhǔn)化和平臺(tái)化,能夠有效支持各類(lèi)知識(shí)服務(wù)的設(shè)計(jì)開(kāi)發(fā)與實(shí)現(xiàn)。語(yǔ)義計(jì)算的平臺(tái)需要有基于語(yǔ)義數(shù)據(jù)模型的計(jì)算范型作為理論基礎(chǔ)。這種(些)語(yǔ)義計(jì)算范型應(yīng)以語(yǔ)義數(shù)據(jù)查詢和處理的原子計(jì)算操作為基礎(chǔ),綜合知識(shí)推理、知識(shí)搜索和知識(shí)發(fā)現(xiàn)等知識(shí)計(jì)算核心任務(wù)在計(jì)算表現(xiàn)形式和計(jì)算執(zhí)行過(guò)程上的特點(diǎn),構(gòu)建語(yǔ)義計(jì)算的代數(shù)系統(tǒng)或演算系統(tǒng)。在此基礎(chǔ)上,語(yǔ)義計(jì)算范型將為常見(jiàn)知識(shí)計(jì)算任務(wù)設(shè)計(jì)具有較強(qiáng)可操作性的任務(wù)構(gòu)建方法。

(2)知識(shí)服務(wù)的計(jì)算表現(xiàn)

在上述語(yǔ)義計(jì)算范型支持下,大規(guī)模數(shù)據(jù)中的知識(shí)服務(wù)將被映射為語(yǔ)義數(shù)據(jù)模型上的各種標(biāo)準(zhǔn)化語(yǔ)義計(jì)算。如何有效表現(xiàn)知識(shí)服務(wù)的計(jì)算形式將成為知識(shí)計(jì)算的核心問(wèn)題之一,這里主要涉及兩個(gè)層面的問(wèn)題:一方面,為了滿足各種定制知識(shí)服務(wù)應(yīng)用需求,需要在語(yǔ)義計(jì)算范型基礎(chǔ)上形成一套表現(xiàn)知識(shí)服務(wù)計(jì)算方法的設(shè)計(jì)模式,能夠便于應(yīng)用開(kāi)發(fā)人員快速建立知識(shí)服務(wù)。另一方面,知識(shí)服務(wù)的計(jì)算最終被規(guī)約為構(gòu)成語(yǔ)義計(jì)算范型的原子計(jì)算,從計(jì)算理論角度來(lái)看,其計(jì)算任務(wù)的有效性主要體現(xiàn)為基于數(shù)據(jù)集的原子計(jì)算的時(shí)空復(fù)雜度。如何在知識(shí)服務(wù)計(jì)算表現(xiàn)形式的基礎(chǔ)上,對(duì)知識(shí)服務(wù)的計(jì)算復(fù)雜度進(jìn)行分析評(píng)估,將是實(shí)踐中的一個(gè)重要問(wèn)題。

(3)知識(shí)的集成與融合

多源、異構(gòu)、分布的知識(shí)信息的集成與融合一直是知識(shí)計(jì)算的一個(gè)重要研究課題。大規(guī)模數(shù)據(jù)中的知識(shí)信息在集成與融合問(wèn)題上呈現(xiàn)出新的發(fā)展趨勢(shì)。首先,非結(jié)構(gòu)化數(shù)據(jù)源的廣泛存在加劇了知識(shí)信息的異構(gòu)程度,同時(shí)傳統(tǒng)的結(jié)構(gòu)化模式映射方法難以適用于基于非結(jié)構(gòu)化數(shù)據(jù)的知識(shí)集成。因此,采用上述適于表現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)語(yǔ)義信息的數(shù)據(jù)模型并在其基礎(chǔ)上建立語(yǔ)義模式映射將成為知識(shí)集成與融合的基礎(chǔ)。其次,知識(shí)集成與融合的計(jì)算模式同時(shí)受到語(yǔ)義數(shù)據(jù)模型和分布并行計(jì)算模型的影響,企業(yè)對(duì)決策管理知識(shí)的集成融合的應(yīng)用需求可能會(huì)催生基于并行圖計(jì)算平臺(tái)的專(zhuān)用的知識(shí)計(jì)算模式。第三,語(yǔ)義模式映射作為知識(shí)集成融合的邏輯模型,將與上述語(yǔ)義計(jì)算范型相結(jié)合,使得知識(shí)集成與融合的計(jì)算可以通過(guò)語(yǔ)義計(jì)算范型的原子操作實(shí)現(xiàn),并可與其他知識(shí)計(jì)算任務(wù)無(wú)縫集成。

(4)知識(shí)的主動(dòng)演化

大規(guī)模數(shù)據(jù)集上的知識(shí)演化將隨著人工智能技術(shù)的融入逐漸從被動(dòng)演化轉(zhuǎn)變?yōu)橹鲃?dòng)演化。主動(dòng)演化表現(xiàn)在內(nèi)容和結(jié)構(gòu)兩個(gè)方面。如前所述,知識(shí)庫(kù)在內(nèi)容上的演化是以本體描述為基礎(chǔ)、由知識(shí)需求驅(qū)動(dòng)的,其實(shí)現(xiàn)過(guò)程是本體描述驅(qū)動(dòng)語(yǔ)義數(shù)據(jù)集進(jìn)行語(yǔ)義查詢并自然積累各種相關(guān)的語(yǔ)義信息,形成了語(yǔ)義數(shù)據(jù)集乃至知識(shí)庫(kù)信息的更新。對(duì)于抽象級(jí)別比較高的知識(shí)本體和抽象級(jí)別比較低的語(yǔ)義數(shù)據(jù),兩者之間可能存在“語(yǔ)義鴻溝”,填補(bǔ)這個(gè)語(yǔ)義鴻溝需要基于上述知識(shí)表示和知識(shí)計(jì)算表現(xiàn)的方法和手段。而依靠人工智能技術(shù)可以提供更高層次的控制機(jī)制,對(duì)填補(bǔ)語(yǔ)義鴻溝的計(jì)算步驟(半)自動(dòng)進(jìn)行分析和歸納,從而實(shí)現(xiàn)本體知識(shí)在語(yǔ)義數(shù)據(jù)集中的映射和解釋?zhuān)瓿芍R(shí)內(nèi)容的主動(dòng)演化。

知識(shí)結(jié)構(gòu)上的演化以知識(shí)發(fā)現(xiàn)為主要方式。知識(shí)發(fā)現(xiàn)的數(shù)據(jù)源不僅僅是原始的語(yǔ)義數(shù)據(jù),而更包括了知識(shí)演化過(guò)程中,知識(shí)信息在消除“語(yǔ)義鴻溝”過(guò)程中所積累的大量中間結(jié)果數(shù)據(jù),從不同的角度用不同的語(yǔ)義本體進(jìn)行解讀,形成不同側(cè)面的知識(shí)事實(shí)數(shù)據(jù),而這些信息形成的過(guò)程中,還會(huì)產(chǎn)生很多中間結(jié)果,這些結(jié)果常常是有用的,這些知識(shí)信息交織在一起,構(gòu)成了知識(shí)發(fā)現(xiàn)的新數(shù)據(jù)源。隨著人工智能技術(shù)在知識(shí)組織中的廣泛應(yīng)用,對(duì)這些海量的知識(shí)數(shù)據(jù)進(jìn)行自主、自動(dòng)的循環(huán)迭代式挖掘,將成為知識(shí)發(fā)現(xiàn)的一個(gè)常態(tài)任務(wù),形成知識(shí)結(jié)構(gòu)上的主動(dòng)演化機(jī)制。同時(shí),在本體驅(qū)動(dòng)知識(shí)演化的過(guò)程中,知識(shí)庫(kù)將能自主進(jìn)行對(duì)知識(shí)的內(nèi)容和結(jié)構(gòu)的演化模式進(jìn)行歸納、對(duì)知識(shí)發(fā)現(xiàn)方式與方向進(jìn)行更高層次地挖掘,從而進(jìn)一步完善知識(shí)的主動(dòng)演化。

6 總結(jié)

文章主要探討在大數(shù)據(jù)環(huán)境下的知識(shí)組織的核心問(wèn)題與發(fā)展趨勢(shì)。大規(guī)模數(shù)據(jù)集作為大數(shù)據(jù)處理的積淀結(jié)果,其中的知識(shí)信息呈現(xiàn)出多元化、網(wǎng)絡(luò)化、源數(shù)據(jù)非結(jié)構(gòu)化以及狀態(tài)頻繁演化等特點(diǎn),并對(duì)以知識(shí)復(fù)用、發(fā)現(xiàn)和增值為核心的知識(shí)服務(wù)提出了新的挑戰(zhàn)。文章從計(jì)算的角度出發(fā),針對(duì)大規(guī)模數(shù)據(jù)中知識(shí)組織的新目標(biāo),從作為知識(shí)數(shù)據(jù)底層載體的語(yǔ)義數(shù)據(jù)入手,討論了語(yǔ)義數(shù)據(jù)建模、知識(shí)表示和知識(shí)服務(wù)計(jì)算三個(gè)與知識(shí)組織相關(guān)的核心方向,并初步探討了其中存在的關(guān)鍵理論問(wèn)題。

大數(shù)據(jù)時(shí)代的到來(lái)使得知識(shí)本身特性發(fā)生改變,并催促知識(shí)組織為適應(yīng)這樣一種新情境而改變方向與重點(diǎn)。隨著用戶對(duì)靈敏性及精準(zhǔn)性的進(jìn)一步要求,以知識(shí)本身特性為基礎(chǔ),融合語(yǔ)義導(dǎo)向、復(fù)雜結(jié)構(gòu)關(guān)聯(lián)等對(duì)知識(shí)組織進(jìn)行深化革新與優(yōu)化成為必然的趨勢(shì)。同時(shí)伴隨研究的進(jìn)一步深入,無(wú)論是頂層建筑還是底層的構(gòu)建上,知識(shí)組織都將面臨巨大的挑戰(zhàn)。文章僅探討了未來(lái)知識(shí)組織工作中與知識(shí)計(jì)算相關(guān)的內(nèi)容,而如何結(jié)合傳統(tǒng)知識(shí)組織方法,在宏觀層面研究大規(guī)模知識(shí)信息的組織管理和應(yīng)用的方法、模型和技術(shù),將是一個(gè)具有挑戰(zhàn)性的重要課題,有待進(jìn)一步探索。 

網(wǎng)絡(luò)客服QQ: 沈編輯

投訴建議:0373-5939925????投訴建議QQ:

招聘合作:2851259250@qq.com (如您是期刊主編、文章高手,可通過(guò)郵件合作)

地址:河南省新鄉(xiāng)市金穗大道東段266號(hào)中州期刊聯(lián)盟 ICP備案號(hào):豫ICP備2020036848

【免責(zé)聲明】:中州期刊聯(lián)盟所提供的信息資源如有侵權(quán)、違規(guī),請(qǐng)及時(shí)告知。

版權(quán)所有:中州期刊聯(lián)盟(新鄉(xiāng)市博翰文化傳媒有限公司)

關(guān)注”中州期刊聯(lián)盟”公眾號(hào)
了解論文寫(xiě)作全系列課程

核心期刊為何難發(fā)?

論文發(fā)表總嫌貴?

職院?jiǎn)挝话l(fā)核心?

掃描關(guān)注公眾號(hào)

論文發(fā)表不再有疑惑

論文寫(xiě)作全系列課程

掃碼了解更多

輕松寫(xiě)核心期刊論文

在線留言