大數(shù)據(jù)文本挖掘技術(shù)在新聞傳播學(xué)科的應(yīng)用
隨著互聯(lián)網(wǎng)和計(jì)算機(jī)的發(fā)展,人們在互聯(lián)網(wǎng)、社交網(wǎng)絡(luò)上產(chǎn)生了海量的網(wǎng)絡(luò)文本。在計(jì)算機(jī)技術(shù)的輔助下,基于大數(shù)據(jù)的文本挖掘日益成為自然科學(xué)和社會科學(xué)中數(shù)據(jù)挖掘研究的重要領(lǐng)域,從2000年開始得到廣泛應(yīng)用。文本挖掘的數(shù)據(jù)主要包括新聞文本、研究論文、書籍、期刊、web頁面、社交媒體文本等。①目前,國內(nèi)外文本挖掘的主要研究成果均集中在社會科學(xué)與自然科學(xué)的交叉領(lǐng)域,國外研究更多涉及管理學(xué)、社會學(xué)、政治學(xué)等領(lǐng)域,而國內(nèi)社會科學(xué)領(lǐng)域相關(guān)成果較少。②分析文本是傳播學(xué)研究中的重要路徑,近年來國內(nèi)外傳播學(xué)領(lǐng)域均有不少學(xué)者探索使用計(jì)算機(jī)文本挖掘技術(shù)解決大數(shù)據(jù)時代的傳播問題。
本文旨在回顧和討論文本挖掘技術(shù)近年來在傳播學(xué)領(lǐng)域的國內(nèi)外研究,對比傳統(tǒng)的內(nèi)容分析方法和大數(shù)據(jù)文本挖掘方法,通過案例介紹文本挖掘技術(shù)在新聞傳播學(xué)研究中的主要功能,并分析其對傳播學(xué)研究帶來的機(jī)遇和挑戰(zhàn)。本文主要利用Social Sciences Citation Index(SSCI)數(shù)據(jù)庫檢索外文文獻(xiàn),利用“中國知網(wǎng)”進(jìn)行中文文獻(xiàn)的檢索。在搜索過程中,主要應(yīng)用的英文關(guān)鍵詞包括:text mining、text analytics、textcategorization、topic modeling、text retrieval、semantic mining、semantic analysis、semantic categorization等,中文關(guān)鍵詞包括文本挖掘、自動文本處理/分析等。在輸入關(guān)鍵詞之后,通過SSCI的分類檢索功能,選取與“傳播學(xué)”相關(guān)的期刊文章;中文文獻(xiàn)中選取了“新聞與傳播”類別進(jìn)行篩選。之后再對每個關(guān)鍵詞所檢索出的文獻(xiàn)進(jìn)行二次篩選,剔除雖符合主題和類別但屬于質(zhì)化研究的文章、通篇運(yùn)用傳統(tǒng)定量分析方法(調(diào)查、實(shí)驗(yàn)、內(nèi)容分析)的文章、綜述性文章(并未使用文本挖掘方法的文章)后,得到40多篇文獻(xiàn)。文獻(xiàn)出版年份均在2010年以后,其中2015-2017年的文獻(xiàn)較多。
需要說明的是,計(jì)算機(jī)文本挖掘技術(shù)在社會科學(xué)中的應(yīng)用屬于跨學(xué)科研究,有相當(dāng)一部分研究成果并未發(fā)表在傳播學(xué)領(lǐng)域期刊,而是分散在計(jì)算機(jī)科學(xué)、社會學(xué)、政治學(xué)、理論物理等交叉學(xué)科,因此并未被本文選取。本文選取的文獻(xiàn)來自于新聞傳播學(xué)科傳統(tǒng)SSCI期刊、與話語及信息研究相關(guān)期刊、區(qū)域性傳播學(xué)研究雜志和部分中文刊物。
本文所選取文獻(xiàn)的研究主題包括政治傳播、科學(xué)傳播、品牌傳播、健康傳播、大眾傳播技術(shù)、文本挖掘技術(shù)綜述、社會網(wǎng)絡(luò)分析等,其中應(yīng)用于政治傳播中的選舉和對外關(guān)系研究、應(yīng)用于科技傳播和品牌傳播的文獻(xiàn)相對較多。文獻(xiàn)的研究對象主要包括社交媒體發(fā)布內(nèi)容、新聞數(shù)字文本(包括文字和影像)和期刊文章,其中以社交媒體發(fā)布內(nèi)容為主。
二、從內(nèi)容分析到文本挖掘
對信息的分析是新聞傳播學(xué)科研究的主流,傳統(tǒng)的研究范式多為以定量研究為主的內(nèi)容分析和以定性研究為主的話語分析。傳統(tǒng)的內(nèi)容分析方法通過設(shè)定編碼框、對文本進(jìn)行人工編碼,分析文本內(nèi)容信息及其變化,從而對文本內(nèi)容進(jìn)行可再現(xiàn)的、有效的推斷。③內(nèi)容分析的基本步驟包括提出研究問題、抽樣、確定分析層次、編碼、檢驗(yàn)信效度、統(tǒng)計(jì)檢驗(yàn)等。內(nèi)容分析發(fā)展至今逐步趨于成熟和完善,但其自身依舊存在一定的局限性,主要體現(xiàn)在抽樣過程中可能會出現(xiàn)主觀判斷、手工編碼效率低下、長期或集體作業(yè)可能帶來信度問題。④在新聞傳播學(xué)領(lǐng)域,以內(nèi)容分析作為主要研究方法的論文較多,研究常常采用框架理論、議程設(shè)置理論、鋪墊理論等經(jīng)典傳播學(xué)理論,分析報刊文本內(nèi)容,從中找尋新聞媒體對相關(guān)議題的報道規(guī)律。
進(jìn)入大數(shù)據(jù)時代,用傳統(tǒng)方式對海量文本進(jìn)行處理,不僅耗費(fèi)人力物力,而且其數(shù)量之龐大也使人工編碼等過程困難重重?;跀?shù)據(jù)挖掘的文本挖掘方法,可以利用機(jī)器學(xué)習(xí)來實(shí)現(xiàn)對大量文本的快速處理。相比之下,文本挖掘的方法在信息分析的過程中,從過程、方法、工具等方面來說,都與內(nèi)容分析法有較大差別。文本挖掘涉及數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)、自然語言處理、可視化技術(shù)、數(shù)據(jù)庫技術(shù)等多個學(xué)科領(lǐng)域的知識和技術(shù),包括數(shù)據(jù)預(yù)處理(包括自然語言的識別和抽取、數(shù)據(jù)源的分類等)、核心挖掘操作、統(tǒng)計(jì)分析、可視化等步驟。⑤文本挖掘方法能夠更有效地提取、描繪信息,對傳播內(nèi)容進(jìn)行可視化,⑥⑦從而呈現(xiàn)文本的宏觀圖景。⑧
傳統(tǒng)的定量傳播學(xué)研究中,在5W理論的視角下,內(nèi)容分析法主要是運(yùn)用在對“傳播者”和“傳播內(nèi)容”的研究上,這與大數(shù)據(jù)時代下的文本挖掘技術(shù)在傳播學(xué)領(lǐng)域的研究是相對應(yīng)的,⑨但兩者在實(shí)際操作和應(yīng)用方面依舊存在著較大差異。筆者主要列舉了對于傳統(tǒng)傳播學(xué)內(nèi)容分析法和文本挖掘方法在樣本大小、抽樣方法、測量、分析單位、編碼、效度檢驗(yàn)等方面的不同(見表1)。
通過以上對比發(fā)現(xiàn),文本挖掘不僅對于大樣本數(shù)據(jù)的處理更有優(yōu)勢,而且也拓展了傳統(tǒng)內(nèi)容分析的測量范圍,對于分析海量網(wǎng)絡(luò)文本數(shù)據(jù)有著明顯的優(yōu)勢。但是,計(jì)算機(jī)自動處理的維度仍然有限。而傳統(tǒng)的內(nèi)容分析雖然樣本量不大,卻勝在可以通過人腦進(jìn)行復(fù)雜的編碼,從而對文本進(jìn)行更加豐富深刻的解讀。在整個研究過程中,內(nèi)容分析的編碼工作耗時耗力,統(tǒng)計(jì)分析工作則相對簡單。而文本挖掘的數(shù)據(jù)采集工作往往比較輕松,但由于網(wǎng)絡(luò)數(shù)據(jù)多而雜,需要花費(fèi)大量精力用于數(shù)據(jù)的清理。一旦算法確立,在數(shù)據(jù)分析部分則較為輕松。
三、幾種常用的文本挖掘方法
(一)詞典法
基于詞典的文本分析在計(jì)算機(jī)輔助的文本分析中使用較為廣泛,新聞傳播學(xué)領(lǐng)域中有許多研究利用這種方法通過分析社交媒體數(shù)據(jù)來檢驗(yàn)議程設(shè)置、選擇性接觸等經(jīng)典理論。⑩(11)基于詞典的文本分析法需要研究者先期確定一些分析類別和類別中包含的詞語,即建立“詞典”,然后將分析對象和詞典中的詞語和類別進(jìn)行基于一定算法的匹對,來確定分析的文本是否屬于該類別。例如,Conway,Kenski and Wang(2015)的研究旨在探討2012年美國總統(tǒng)選舉中媒介之間的議程設(shè)置,比較報紙和twitter文本的相互關(guān)聯(lián)。(12)作者使用了WordStat軟件構(gòu)建詞典,利用關(guān)鍵詞集群建立21個議題類目,并通過人工檢查來確保關(guān)鍵詞能夠恰當(dāng)?shù)卮砟硞€類目,當(dāng)某個關(guān)鍵詞出現(xiàn)10次以上時,則被認(rèn)為涉及到它從屬的議題。
但是,基于詞典的情緒分析方法最初是用于較為嚴(yán)謹(jǐn)、正式的文學(xué)作品,詞義表達(dá)清晰,因此能保證較高的信度和效度。在分析網(wǎng)絡(luò)語言時,由于詞典本身需要跟隨網(wǎng)絡(luò)語言的發(fā)展而不斷更新,再加上網(wǎng)絡(luò)語言的隨意性和片段性,都給詞典法的算法和精準(zhǔn)度提出了更高的要求。并且,詞典的建立常常需要研究者閱讀一定數(shù)量的樣本文本,但是人的精力是有限的,當(dāng)分析對象是海量數(shù)據(jù)時,樣本文本的代表性和局限性會使得先期建立的類目和詞庫并不能完全覆蓋海量文本的內(nèi)容范疇。因此,當(dāng)面對內(nèi)容范疇無法預(yù)估的情況時,機(jī)器學(xué)習(xí)相對詞典法而言,是更明智的選擇。
(二)無監(jiān)督的機(jī)器學(xué)習(xí)
無監(jiān)督的機(jī)器學(xué)習(xí)是為了探尋文本數(shù)據(jù)中“隱藏的結(jié)構(gòu)”,事先并無訓(xùn)練樣本集,也就是說數(shù)據(jù)并未有一個人為給定的“標(biāo)簽”,需要機(jī)器通過聚類等算法,來發(fā)現(xiàn)數(shù)據(jù)的潛在類別規(guī)則。無監(jiān)督的機(jī)器學(xué)習(xí)最常見的應(yīng)用是主題模型的挖掘。主題模型算法將每個文檔看作是一系列無序的詞匯,每個詞匯的出現(xiàn)頻次不一樣。算法將一篇文檔中的詞語頻率解釋為有權(quán)重的主題詞的匯集,這些權(quán)重顯示了一篇文檔中出現(xiàn)的不同主題的概率。(13)比如,如果一篇文檔中,基因、DNA、RNA、進(jìn)化、突變、數(shù)據(jù)、計(jì)算、統(tǒng)計(jì)等詞匯以不同的比例出現(xiàn),那么主題模型就會計(jì)算出這篇文檔包含“遺傳學(xué)”“進(jìn)化論”“數(shù)據(jù)科學(xué)”這三種主題,詞語的不同比例意味著文章對不同主題的側(cè)重是有差異的。
主題模型的方法是基于文檔推測文檔的主題分布,利用各個文檔中不同主題出現(xiàn)的概率進(jìn)行估計(jì)。主題模型主要用來發(fā)掘文本之間的隱含主題結(jié)構(gòu)關(guān)系,通過挖掘共現(xiàn)詞匯的循環(huán)聚群來探求其中的關(guān)系。(14)主題模型主要解決的問題是怎樣生成主題,一般來說,一篇文檔都是通過一定概率選擇了某個主題,并從中以一定的概率選擇某個詞語而產(chǎn)生。概率主題模型的數(shù)學(xué)表達(dá)為:
一般情況下將收集的文本通過軟件的輔助進(jìn)行分詞,再根據(jù)相應(yīng)的算法對文本進(jìn)行分類和探求其間的聯(lián)系。常見的算法就是潛狄利克雷分布、結(jié)構(gòu)話題建模、概率潛在語義分析等,其中潛狄利克雷分布(LDA)算法最為常用。(15)該算法非常適合于結(jié)構(gòu)化的文本,比如,報紙、學(xué)術(shù)文章等經(jīng)過精細(xì)編輯校對后的規(guī)范文字。當(dāng)處理社交媒體數(shù)據(jù)時則會面臨新的挑戰(zhàn),碎片化的、語義模糊的、缺乏上下文語境的、包涵各式各樣表情符、縮略語甚至錯別字的社交媒體語言,使得未經(jīng)特別處理的LDA算法常常難以識別人類在虛擬空間中發(fā)布的文字的真實(shí)含義,(16)(17)有監(jiān)督的機(jī)器學(xué)習(xí)因此應(yīng)運(yùn)而生。
(三)有監(jiān)督的機(jī)器學(xué)習(xí)
有監(jiān)督的機(jī)器學(xué)習(xí)(SML)將人腦勞動和計(jì)算機(jī)算法有機(jī)結(jié)合,一方面能夠保留人腦對文本內(nèi)容的準(zhǔn)確理解;另一方面能夠發(fā)揮機(jī)器處理海量數(shù)據(jù)的能力。在有監(jiān)督的機(jī)器學(xué)習(xí)中,需要使用人工編碼過的文本內(nèi)容作為訓(xùn)練集,每個文檔被轉(zhuǎn)化成為一個可被計(jì)算的文本元素特征集,然后,所有文檔的特征集和文本的內(nèi)容標(biāo)簽(如人名、機(jī)構(gòu)名)被用來訓(xùn)練分類器,以訓(xùn)練集為基礎(chǔ)對文本特征進(jìn)行分類。最后,對訓(xùn)練集以外的文本進(jìn)行自動分析。關(guān)于有監(jiān)督的機(jī)器學(xué)習(xí)的詳細(xì)介紹可參見Russell and Norvig和Grimmer and Stewart的文獻(xiàn)。(18)(19)這種自動化的文本分析方法既高效又能保持良好的準(zhǔn)確度,一方面,一旦一個分類器訓(xùn)練完成,它能夠迅速地分析大量文本,并運(yùn)用于其他研究中,因而能達(dá)到事半功倍的效果;另一方面,人工編碼的訓(xùn)練集質(zhì)量可以嚴(yán)格控制,也可以隨時用來評價機(jī)器學(xué)習(xí)的結(jié)果。例如,Burscher等人(20)使用兩種SML方法來挖掘文本框架,一種方法是“基于指標(biāo)的”,首先為不同的框架設(shè)立一系列指標(biāo),然后判斷文本中是否包涵這些指標(biāo),并對指標(biāo)進(jìn)行整合來確定文本是否體現(xiàn)了某一框架,這意味著機(jī)器要首先分析指標(biāo),再分析框架。另一種方法是“整體性的”,訓(xùn)練分類器直接對文本的框架進(jìn)行識別和分類,同樣,在訓(xùn)練集中,每個框架用一系列指標(biāo)集合來表示,只要文本中出現(xiàn)了某一個指標(biāo),就認(rèn)為文本涉及到該框架。與第一種方法不同的是,此時用框架編碼的最終結(jié)果來訓(xùn)練分類器,這個分類器能直接判斷某個文檔是否包涵某一框架,而不需要分析文本中是否包涵了某一框架的指標(biāo)。研究發(fā)現(xiàn),直接識別文本框架要比通過指標(biāo)來識別框架的方法更高效,并且,訓(xùn)練集樣本的增加能夠顯著地提高分類器的準(zhǔn)確度。除此之外,研究者還發(fā)現(xiàn),分類器在判斷不同的框架時,其準(zhǔn)確度也有一定的差異,在識別新聞中常見的沖突、經(jīng)濟(jì)結(jié)果、人類利益和道德這四種經(jīng)典框架時,SML對經(jīng)濟(jì)結(jié)果這一框架的識別精度要高于其他框架。(21)
四、文本挖掘技術(shù)的具體應(yīng)用
(一)情感分析
情感分析的主要目的是識別用戶對事物或人的看法、態(tài)度,是一種自然語言處理過程分析的二級領(lǐng)域,自動對文本進(jìn)行分類并且找尋用戶對于某些特殊議題的態(tài)度。(22)在新聞傳播領(lǐng)域的研究當(dāng)中,多數(shù)都是判斷文本所顯示的態(tài)度是積極、正面的還是消極、負(fù)面的近年來,利用情感分析對網(wǎng)絡(luò)文本進(jìn)行的研究主要集中在以下幾個領(lǐng)域。
1、政治傳播中,利用網(wǎng)絡(luò)文本情感分析判斷網(wǎng)民的政治傾向。如Vargo,Guo,McCombs和Shaw發(fā)表在Journal of Communication上的文章,在議程設(shè)置的基礎(chǔ)上提出了“議程熔合”和“網(wǎng)絡(luò)議程設(shè)置”的概念,試圖研究不同類型的受眾如何通過不同的媒體來表達(dá)政治訴求,該研究通過情緒分析來區(qū)分推特用戶的政治取向,將詞典法和有監(jiān)督的機(jī)器學(xué)習(xí)結(jié)合起來確保分類的精準(zhǔn)。(23)作者首先將推文分為僅提及奧巴馬的和僅提及羅姆尼的,然后計(jì)算出每個用戶對某一候選人的情緒指數(shù),來區(qū)分奧巴馬的支持者和羅姆尼的支持者,使用的是擅長處理英文短文的SentiStrength軟件(詞典法)。為了驗(yàn)證詞典法的分類效果,該研究又采取了機(jī)器學(xué)習(xí)法,隨機(jī)抽取380條推文進(jìn)行人工編碼,形成訓(xùn)練集。再采用LightSIDE程序,使用簡單貝葉斯分類算法建立模型。新的模型在原來的SentiStrength詞典基礎(chǔ)上,新增了322個可用來區(qū)分正、負(fù)情緒的詞匯,研究者將這322個新增詞匯補(bǔ)入SentiStrength詞典,然后再抽取380條推文進(jìn)行人工編碼,此時SentiStrength自動編碼的結(jié)果與人工編碼結(jié)果的一致性達(dá)到82.8%。
2、在公共傳播研究中,通過對網(wǎng)絡(luò)輿論進(jìn)行情感分析,判斷網(wǎng)民對某些公共事件或社會重大議題的情感傾向。大多數(shù)新聞傳播學(xué)研究對文本的情感分析僅存在積極、中立、消極這三種簡單的分類,在一些傳播學(xué)與心理學(xué)的跨學(xué)科研究中,研究者采用LIWC等詞典軟件,不僅能夠識別正、負(fù)情緒類別,還能夠分辨憤怒、悲傷、焦慮等具體的情緒,從而使得情緒分析能夠達(dá)到更加細(xì)膩、豐富的效果。國內(nèi)有學(xué)者(24)(25)曾將LIWC應(yīng)用于網(wǎng)絡(luò)公共事件中的情緒記憶和內(nèi)地網(wǎng)民對港澳回歸的情緒認(rèn)知研究,如2017年的研究發(fā)現(xiàn),在網(wǎng)民的討論中,香港在負(fù)情緒上的得分顯著高于澳門。
3、在品牌傳播研究中,利用評論等文本的情感,分析用戶對產(chǎn)品和服務(wù)的評價。(26)如在Liu、Burns和Hou的研究中,(27)利用情感分析對推特上用戶發(fā)表的與品牌相關(guān)的文本進(jìn)行分類,來探究不同種類的主流產(chǎn)品品牌之間的情感差異以及排名。他們選擇了快餐行業(yè)、百貨公司、制鞋業(yè)、電子產(chǎn)品、通訊業(yè)這五大行業(yè)的四個品牌,收集了2015年以來的一千萬條文本,這些文本均“@”過所選品牌,將重復(fù)發(fā)送等“噪音”信息刪除后,最終獲得了170萬條左右的推特文本。研究者分析了文本中蘊(yùn)含的用戶品牌態(tài)度(中立、消極、積極),再計(jì)算出對于某一品牌的負(fù)面情緒文本的比重作為用戶對某一品牌的整體情感。為了檢驗(yàn)其情感指標(biāo)能否真實(shí)反映品牌滿意度,作者用研究指標(biāo)與2015年“美國消費(fèi)者滿意指數(shù)”進(jìn)行相關(guān)分析,發(fā)現(xiàn)ACSI滿意度排名與作者設(shè)立積極情感指標(biāo)呈高度正相關(guān),而與消極情感指標(biāo)呈高度負(fù)相關(guān)。這種研究將計(jì)算機(jī)自動文本處理結(jié)果與傳統(tǒng)的社會調(diào)查結(jié)果進(jìn)行比對,是一種典型的研究思路。Hsu和Jane的一項(xiàng)針對票房的文本研究中,(28)收集了從2010年12月到2013年4月來自769部電影的臺灣地區(qū)票房數(shù)據(jù),以及來自電影論壇的網(wǎng)絡(luò)口頭傳播的文本數(shù)據(jù)。該研究對論壇文本數(shù)據(jù)進(jìn)行了情感分析,發(fā)現(xiàn)對電影的網(wǎng)絡(luò)口頭傳播不僅是電影銷量帶來的結(jié)果,還是消費(fèi)者消費(fèi)行為的驅(qū)動力;對電影的正面和負(fù)面網(wǎng)絡(luò)口頭傳播評價是不對稱的;網(wǎng)絡(luò)口頭傳播信息會影響電影的票房表現(xiàn)等。通過對電影行業(yè)的文本挖掘,為企業(yè)傳播和商業(yè)對策提供了現(xiàn)實(shí)路徑。
(二)主題模型
主題模型的主要任務(wù)是通過對詞語、文本和主題之間關(guān)系的分析,對大量文本進(jìn)行主題歸類。Guo等人比較了詞典法和無監(jiān)督的機(jī)器學(xué)習(xí)(LDA)對2012年美國總統(tǒng)選舉中7000多萬條推特文本的主題分析。(29)研究發(fā)現(xiàn),兩種主題模型分析法的結(jié)果差異較大,總體來說,LDA分析的結(jié)果優(yōu)于詞典法,LDA能夠識別更多的推文、分辨網(wǎng)絡(luò)語言中更細(xì)微的區(qū)別。但是,LDA也存在一些問題,比如關(guān)于某個候選人的多個議題和特點(diǎn)會被合并到一個主題里,而有時這些議題和特點(diǎn)之間其實(shí)并無邏輯關(guān)聯(lián),因此,無監(jiān)督的機(jī)器學(xué)習(xí)也需要人工干預(yù)來避免類似的錯誤。Sachdeva、McCaffrey和Locke進(jìn)行的一項(xiàng)關(guān)于火災(zāi)的研究,其中的一個部分利用了推特文本構(gòu)建主題模型對火災(zāi)、煙霧,以及發(fā)推文的地理位置進(jìn)行了探討。(30)該研究希望探究在檢測部門還未發(fā)布權(quán)威數(shù)據(jù)時,如何利用社交媒體對火災(zāi)及火災(zāi)引發(fā)的煙霧起到追蹤作用,建立由火災(zāi)引發(fā)的公共衛(wèi)生事件的快速預(yù)防體系。作者通過關(guān)鍵詞,收集了2014年9月1日至10月15日關(guān)于一場名為“King Fire”的火災(zāi)的網(wǎng)絡(luò)數(shù)據(jù),并且對于推特的地理信息進(jìn)行了編碼,共收集大約14000條推文。通過結(jié)構(gòu)話題建模(STM)算法進(jìn)行主題建模,共分析出了20個主題。研究結(jié)果發(fā)現(xiàn):第一,推文主要的主題包括火災(zāi)的基本信息(面積、范圍、活躍地區(qū))、受災(zāi)者的情況、空氣質(zhì)量等;第二,距火源地的遠(yuǎn)近影響主題的分布,例如離火源越近的用戶更熱衷于討論空氣質(zhì)量,越遠(yuǎn)的用戶更熱衷于討論縱火犯、火的起因等方面的主題。作者認(rèn)為,利用推特文本的主題模型分析,可以在環(huán)保部門數(shù)據(jù)發(fā)布之前,先對空氣質(zhì)量進(jìn)行估計(jì)和預(yù)警,這對于實(shí)際的空氣質(zhì)量檢測和公共衛(wèi)生預(yù)警,具有重要的現(xiàn)實(shí)意義。國內(nèi)有學(xué)者采用文檔關(guān)鍵詞提取、無干預(yù)的主題建模和人工內(nèi)容分析相結(jié)合的手法,對公共事件的網(wǎng)絡(luò)輿論進(jìn)行話語框架的內(nèi)容研判,發(fā)現(xiàn)不同類型的
公共事件在話語框架上的共性和差異,并認(rèn)為語義建模方法避免了由于研究者主觀臆斷或者在框架判定中的理解偏差所帶來的誤差,能夠使不容易被研究者發(fā)現(xiàn)的框架涌現(xiàn)出來。(31)
(三)語義網(wǎng)絡(luò)分析
語義網(wǎng)絡(luò)分析主要是探究詞句間的數(shù)量關(guān)系,用詞句作為網(wǎng)絡(luò)中的節(jié)點(diǎn),探究不同詞句在整體網(wǎng)中所處的地位。語義網(wǎng)絡(luò)分析是用量化網(wǎng)絡(luò)關(guān)系呈現(xiàn)文本之間聯(lián)系的方法。語義網(wǎng)絡(luò)的概念最早由奎林于1968年提出,開始是作為人類聯(lián)想記憶的一個公理模型提出,隨后在機(jī)器學(xué)習(xí)領(lǐng)域中用于自然語言理解,又被稱為關(guān)系內(nèi)容分析,該方法是以高頻詞為節(jié)點(diǎn),以高頻詞組合共同出現(xiàn)的次數(shù)為節(jié)點(diǎn)間的關(guān)系,通過構(gòu)建語義網(wǎng)絡(luò)來分析高頻詞組在文本中的語義,來反映作者的精神圖譜。(32)這種方法會先在網(wǎng)絡(luò)上進(jìn)行數(shù)據(jù)抓取,根據(jù)研究主題進(jìn)行分詞、編碼和內(nèi)容分類,再利用軟件計(jì)算出所抽取內(nèi)容之間的關(guān)系的數(shù)量,建立關(guān)系的網(wǎng)絡(luò)。語義網(wǎng)絡(luò)分析相對傳統(tǒng)內(nèi)容分析更加客觀,可以勾勒出媒體報道的整體形象,并且可以分析不同層面的問題。(33)與主題模型類似,語義網(wǎng)絡(luò)分析的主旨是呈現(xiàn)文本的主要內(nèi)容,通過詞語之間的網(wǎng)絡(luò)關(guān)系,可將整個語義網(wǎng)絡(luò)區(qū)分成不同的社區(qū),這種社區(qū)或者子群也是對文本內(nèi)容的分類。
Guo和Vargo的研究中,對2012美國總統(tǒng)候選人相關(guān)的推特文本進(jìn)行挖掘,利用語義網(wǎng)絡(luò)分析等方法來探究網(wǎng)絡(luò)中的議程設(shè)置。(34)該研究建立了議題所有權(quán)網(wǎng)絡(luò),指的是候選人對于國家事務(wù)相關(guān)議題的關(guān)聯(lián)程度。具體分為候選人的“聯(lián)系性”議題所有權(quán)網(wǎng)絡(luò)(指候選人在推文中多次提到的議題,但并非是本黨派在以往執(zhí)政中所勝任解決的議題)和“勝任性”議題所有權(quán)網(wǎng)絡(luò)(主要是指候選人在推文提到的本黨派以往能夠勝任的議題)。研究者通過建立語義網(wǎng)絡(luò),來分析媒體、競選團(tuán)隊(duì)推特文本中對于不同候選人、對不同種類的議題所有權(quán)網(wǎng)絡(luò),如何影響公眾對候選人的認(rèn)知。研究者抓取了2012年美國總統(tǒng)大選期間,美國民眾、新聞媒體和官方競選團(tuán)隊(duì)的推特文本,以及民眾發(fā)布的推特文本,并根據(jù)用戶自我報告的政治意識形態(tài)(民主黨/共和黨)狀況,對其進(jìn)行分類,利用民眾發(fā)布的推特建立詞表。研究者選取了如稅收、就業(yè)、同性婚姻等熱議的16個議題。議題主要作為語義網(wǎng)絡(luò)分析的節(jié)點(diǎn),而兩位候選人作為“自我網(wǎng)”中的“自我中心”。建立網(wǎng)絡(luò)之后,研究者利用情感分析方法進(jìn)行人工編碼,對“勝任性”維度予以賦值,來判斷其議題與中心是正向或是負(fù)向聯(lián)系。研究發(fā)現(xiàn),在新媒體時代,媒體議程設(shè)置功能依舊存在,而且會明顯影響民眾對于候選人及相關(guān)議題的公共感知;競選活動利用新媒體傳播,也會對民眾的公共感知產(chǎn)生影響,競選活動對于民眾構(gòu)建“勝任性”議題所有權(quán)網(wǎng)絡(luò)更為有效。
五、結(jié)論與探討
通過以上闡述和分析發(fā)現(xiàn),文本挖掘技術(shù)在新聞傳播學(xué)科的應(yīng)用十分廣泛,套用“5W”模式,文本挖掘在傳播學(xué)研究中可以在以下方面大施拳腳。
一是傳播內(nèi)容研究。文本挖掘技術(shù)一方面能夠突破內(nèi)容分析采樣的局限,處理海量數(shù)據(jù);另一方面更突破了傳統(tǒng)的傳播學(xué)研究僅分析傳媒(最常見的是紙媒)內(nèi)容的拘囿,將分析對象推廣至Twitter、微博、論壇等包含表情符、縮略語、口語等復(fù)雜情境的網(wǎng)絡(luò)文本,以及圖書、期刊等信息量巨大的規(guī)范文本。有學(xué)者通過回顧近年來在新聞傳播學(xué)領(lǐng)域利用計(jì)算社會科學(xué)方法進(jìn)行的實(shí)證研究,發(fā)現(xiàn)有關(guān)傳播“內(nèi)容”的研究中,主要對社會化媒介的內(nèi)容和搜索詞進(jìn)行研究,前者主要是對數(shù)字文本的研究,后者主要通過研究搜索痕跡來了解公眾的注意力。(35)除此之外,也有研究者使用文本挖掘技術(shù)來分析質(zhì)化研究中獲取的材料,如Baker等在一項(xiàng)健康傳播研究中,通過訪談的形式,收集病人和醫(yī)生在“如何與病人相處”和“如何面對疾病治療”這兩個主要問題的訪談文本,利用文本挖掘軟件Leximancer進(jìn)行分析。(36)研究發(fā)現(xiàn)醫(yī)生和病人由于其所處角色不同而有不同的邏輯。作者認(rèn)為,醫(yī)患溝通中如果雙方更好適應(yīng)對方的傳播邏輯,醫(yī)生從關(guān)愛和支持的角度展開溝通,會讓病人獲得一定的心理支持,進(jìn)而積極面對治療。
二是傳播者和受眾研究。通過對傳播者或受眾寫作的、口述的文本進(jìn)行分析,不僅能夠判斷其語言風(fēng)格,還能夠挖掘文本中折射的態(tài)度、情感、信念、價值觀念,從而推斷傳播者的身份、性格、心理狀態(tài)和立場觀念。除前文提及的通過對文本的情感分析來確定網(wǎng)民的政治立場之外,還有些研究通過網(wǎng)絡(luò)文本來推測作者的性格。比如,Sumner等人采用機(jī)器學(xué)習(xí)方法分析了來自89個國家的2927名twitter用戶的推文,從中推斷出他們在大五人格特質(zhì)(嚴(yán)謹(jǐn)性、外向性、開放性、宜人性與神經(jīng)質(zhì))各個類別上的得分高低,并與樣本自我報告的人格特征量表得分進(jìn)行比對,發(fā)現(xiàn)能夠達(dá)到較高的關(guān)聯(lián)度。(37)
三是傳播效果研究。新聞網(wǎng)站、微博、論壇、微信公眾賬號大多具有評論功能,通過對主帖和評論進(jìn)行文本挖掘,可以發(fā)現(xiàn)網(wǎng)絡(luò)內(nèi)容如何被受眾認(rèn)知、解讀、評價、傳播,從而能直接考察傳播效果。Ceron等人通過分析法國2012年大選相關(guān)的推特文本,發(fā)現(xiàn)了政治選舉相關(guān)的社交媒體文本挖掘與傳統(tǒng)的問卷調(diào)查方法都起到了很好的預(yù)測作用,隨著社交媒體意見表達(dá)的增多,用戶線下行為也會受到這些意見的影響,從而考察了社交媒體的傳播效果。(38)
總的來說,傳播學(xué)中的計(jì)算機(jī)文本挖掘,主要承擔(dān)了描述、比較、解釋的功能。一方面,文本挖掘的初始使命是對文本的內(nèi)容、主題、情感進(jìn)行描述,展現(xiàn)海量文本的概貌;另一方面,由于計(jì)算機(jī)自動處理遠(yuǎn)不及人工編碼細(xì)膩豐富,僅僅對文本概貌的展示不足以支撐一個完整的研究,因此,在很多研究中,“描述文本”只是一個輔助功能,在“描述”的基礎(chǔ)上進(jìn)行“比較”或“解釋”,才是研究的最終目的。在比較型研究中,“比較”的常常是網(wǎng)絡(luò)文本和傳統(tǒng)社會科學(xué)方法獲得的數(shù)據(jù)或結(jié)果,如O'Connor,Balasubramanyan,Routledge & Smith分析了20082009年的7份關(guān)于消費(fèi)者信心和政治觀念方面的調(diào)查,發(fā)現(xiàn)調(diào)查的結(jié)果與同時期Twitter中流露的情緒有顯著的關(guān)聯(lián),在某些議題中相
關(guān)度達(dá)到80%,意味著網(wǎng)絡(luò)文本表達(dá)的情緒和觀點(diǎn)能夠補(bǔ)充甚至替代傳統(tǒng)的民意調(diào)查。(39)抑或比較不同網(wǎng)絡(luò)平臺展現(xiàn)的、不同對象發(fā)布的網(wǎng)絡(luò)
文本,如Qin(40)分析了“棱鏡門”事件在Twitter和傳統(tǒng)媒體報道中的語義網(wǎng)絡(luò),發(fā)現(xiàn)Twitter中的斯諾登與泄密者、個人隱私、反稅運(yùn)動等語義網(wǎng)絡(luò)聯(lián)系,呈現(xiàn)為一個“英雄”;而傳統(tǒng)媒體中的斯諾登則與國土安全及反恐框架聯(lián)系起來,呈現(xiàn)為一個“叛徒”。抑或通過不同的方法分析的文本數(shù)據(jù)的結(jié)果,探究更為優(yōu)化的算法。例如,Guo等人對2012年美國總統(tǒng)大選的同一數(shù)據(jù)進(jìn)行兩種大數(shù)據(jù)方法的研究——詞庫分析和主題模型,為計(jì)算機(jī)輔助新聞傳播研究(尤其政治傳播研究)進(jìn)行效度評估提供了方法論上的對比。(41)
“解釋型”研究則分為幾種情況:一種是用其他變量來解釋文本的內(nèi)容情感特征何以形成,例如,Montiel等人對于中國和菲律賓兩國媒體對于黃巖島事件的報道的文本分析,解釋了兩國報道不同的報道框架和形成該報道框架的政治層面的原因;(42)另一種是用文本的內(nèi)容情感特征來與其他變量進(jìn)行關(guān)聯(lián),賦予文本解釋的力量,如歐洲、美國均有許多研究通過對網(wǎng)絡(luò)民意的情感分析來判斷或預(yù)測選舉中候選人的得票情況。在科技、環(huán)境傳播領(lǐng)域,相關(guān)的研究更多論述了如何將該技術(shù)(結(jié)論)應(yīng)用到實(shí)際,例如,Sachdeva、McCaffrey和Locke的研究,針對推特文本的挖掘發(fā)現(xiàn),在缺少環(huán)境監(jiān)測部門的數(shù)據(jù)時,可以利用推特文本對火災(zāi)發(fā)生地的空氣質(zhì)量,尤其是PM2.5的濃度進(jìn)行監(jiān)測,對現(xiàn)實(shí)的環(huán)境改善意義較大。(43)所以,計(jì)算機(jī)文本挖掘的結(jié)果,常常會服務(wù)于傳統(tǒng)的統(tǒng)計(jì)分析方法,與用戶的特征行為,社會、媒體等外界環(huán)境變量結(jié)合。這種傾向,也體現(xiàn)了社會科學(xué)研究關(guān)注現(xiàn)實(shí)問題、追求理論創(chuàng)新的特色。
文本挖掘作為計(jì)算社會科學(xué)的重要方法,無論從范式、方法,還是工具上,對新聞傳播學(xué)領(lǐng)域,乃至對整個社會科學(xué)領(lǐng)域都帶來了巨大的進(jìn)步和變化。文本挖掘技術(shù)作為數(shù)據(jù)驅(qū)動型的范式,從“自上而下”的演繹邏輯逐漸轉(zhuǎn)向“自下而上”歸納邏輯,(44)也為定量實(shí)證研究提供了重要的工具。相比傳統(tǒng)方法,文本挖掘在社會科學(xué)中具有以下優(yōu)勢:第一,可以對海量文本進(jìn)行處理和整體趨勢挖掘,既可以減少抽樣帶來的誤差,又適合于新媒體時代對海量信息的處理;第二,文本挖掘可以幫助研究者發(fā)現(xiàn)一些隱藏的結(jié)論,如通過文本挖掘,可以探知人的語言特征和性格;第三,文本挖掘技術(shù)能夠解決以往人工難以解決的問題,比如語義之間的關(guān)系、概念之間關(guān)系;(45)第四,將文本數(shù)據(jù)與網(wǎng)絡(luò)痕跡數(shù)據(jù)對應(yīng)起來,使得文本的內(nèi)容能夠與文本的生產(chǎn)者進(jìn)行有機(jī)結(jié)合。相對于自我報告的調(diào)查數(shù)據(jù),基于自然語言的文本挖掘處理的是不受主觀意志干擾的內(nèi)容,從而能更加科學(xué)、客觀地發(fā)現(xiàn)人類的語言與他們的情感、觀點(diǎn)、態(tài)度和行為之間的關(guān)系。
然而,計(jì)算機(jī)文本挖掘技術(shù)的應(yīng)用也存在一些問題。第一,文本挖掘技術(shù)處于開發(fā)發(fā)展階段,仍有很多研究者在追求更加精準(zhǔn)的算法,很多論文都是對不同算法的演練和比較;第二,受到挖掘算法、語料庫質(zhì)量和數(shù)據(jù)質(zhì)量的影響,有時即使運(yùn)用了文本挖掘方法,也達(dá)不到預(yù)期的效果;第三,計(jì)算機(jī)文本分析的缺陷在于無法達(dá)到人腦對文本解讀所能達(dá)到的細(xì)膩深刻程度,無論是情感判斷,還是主題建模、語義網(wǎng)絡(luò)分析,都只能呈現(xiàn)文本的概貌,這一先天不足使得基于人工編碼的傳統(tǒng)內(nèi)容分析以及質(zhì)化的語義分析,仍然有其存在的價值;第四,在國外大量使用文本挖掘方法的傳播學(xué)研究并未發(fā)表在傳播學(xué)期刊上,主流的傳播學(xué)期刊雖然正在逐漸接納以大數(shù)據(jù)為基礎(chǔ)的經(jīng)驗(yàn)研究,但總量依然不大,致使許多優(yōu)秀成果散落在社會學(xué)、政治學(xué)、計(jì)算機(jī)或者其他交叉學(xué)科的期刊上,使得本學(xué)科的學(xué)術(shù)成果并不集中,在計(jì)算社會科學(xué)方興未艾的局勢下,“計(jì)算傳播學(xué)”的先驅(qū)學(xué)者們?nèi)鄙僬蔑@學(xué)科歸屬的平臺集中亮相研究成果;第五,從研究思路來看,國內(nèi)新聞傳播研究集中在理論思辨和傳統(tǒng)的社會科學(xué)實(shí)證研究領(lǐng)域,大部分學(xué)者缺乏計(jì)算社會科學(xué)的思維和方法訓(xùn)練。而計(jì)算機(jī)文本挖掘?qū)W(xué)者的知識與技術(shù)儲備要求較高,未來這一研究路徑是否能在傳播學(xué)領(lǐng)域大放異彩、是否能取得具有理論突破意義的研究成果、是否能為解決社會問題提供獨(dú)特價值,仍需要長期的努力。
欄目分類
- 徐州蘇軾紀(jì)念館數(shù)字文創(chuàng)產(chǎn)品設(shè)計(jì)與產(chǎn)業(yè)鏈研究
- 互聯(lián)網(wǎng)下地域文化特色融入文創(chuàng)產(chǎn)品設(shè)計(jì)
- 復(fù)興與困境:“互聯(lián)網(wǎng)+”時代漫畫的發(fā)展現(xiàn)狀與意義生成
- 基于環(huán)境育人的高職院校教學(xué)環(huán)境設(shè)計(jì)提升的路徑探索 ——以設(shè)計(jì)專業(yè)教學(xué)樓空間改造為例
- 理性與詩性的交融:富蘭克林·布斯鋼筆墨繪畫風(fēng)格的形成與影響
- AIGC技術(shù)助力藝術(shù)設(shè)計(jì)類職業(yè)人才“專精特新”培養(yǎng)路徑研究
- 定格動畫在高職高專學(xué)前教育專業(yè)美術(shù)課程中的應(yīng)用——以石頭畫為例
- 由藝造記憶談中國山水畫的創(chuàng)作與欣賞
- 基于審美素養(yǎng)提升的美術(shù)鑒賞路徑探索
- 民間非遺工藝美術(shù)的現(xiàn)代化傳承創(chuàng)新研究
- 2025年中科院分區(qū)表已公布!Scientific Reports降至三區(qū)
- 官方認(rèn)定!CSSCI南大核心首批191家“青年學(xué)者友好期刊名單”
- 2023JCR影響因子正式公布!
- 國內(nèi)核心期刊分級情況概覽及說明!本篇適用人群:需要發(fā)南核、北核、CSCD、科核、AMI、SCD、RCCSE期刊的學(xué)者
- 我用了一個很復(fù)雜的圖,幫你們解釋下“23版最新北大核心目錄有效期問題”。
- 重磅!CSSCI來源期刊(2023-2024版)最新期刊目錄看點(diǎn)分析!全網(wǎng)首發(fā)!
- CSSCI官方早就公布了最新南核目錄,有心的人已經(jīng)拿到并且投入使用!附南核目錄新增期刊!
- 北大核心期刊目錄換屆,我們應(yīng)該熟知的10個知識點(diǎn)。
- 注意,最新期刊論文格式標(biāo)準(zhǔn)已發(fā)布,論文寫作規(guī)則發(fā)生重大變化!文字版GB/T 7713.2—2022 學(xué)術(shù)論文編寫規(guī)則
- 盤點(diǎn)那些評職稱超管用的資源,1,3和5已經(jīng)“絕種”了