網(wǎng)絡(luò)輿情監(jiān)測與引導(dǎo)呼喚與數(shù)據(jù)挖掘的有機(jī)融合
云計(jì)算、物聯(lián)網(wǎng)、智慧城市、大數(shù)據(jù)等新技術(shù)和新理念的出現(xiàn)使網(wǎng)絡(luò)輿情支撐技術(shù)大環(huán)境正在進(jìn)行著深刻的變革,給公民聽政、參政、議政、督政提供了新的技術(shù)平臺,給黨政機(jī)關(guān)拓寬了解世情民意的渠道,網(wǎng)絡(luò)逐漸成為公眾便捷獲取信息、及時(shí)表達(dá)民情、充分反映民意的主渠道,同時(shí)也必然產(chǎn)生巨大的輿論壓力。隨著海量網(wǎng)絡(luò)輿情成指數(shù)增加,雖然傳統(tǒng)的數(shù)據(jù)處理技術(shù)能夠較好地完成輿情統(tǒng)計(jì)與分析,OLAP等在線分析處理技術(shù)也可以實(shí)現(xiàn)對輿情研判、決策等基本功能,但很顯然,這些技術(shù)由于不支持對海量輿情潛在信息的發(fā)現(xiàn)與挖掘,也無法找到輿情信息間存在的關(guān)系或規(guī)則,不能根據(jù)現(xiàn)有輿情預(yù)測未來發(fā)展趨勢,由此導(dǎo)致了“數(shù)據(jù)爆炸,知識貧乏”的奇怪現(xiàn)象。時(shí)代熱切企盼著網(wǎng)絡(luò)輿情引導(dǎo)的理念創(chuàng)新與技術(shù)創(chuàng)新。
在這種背景下,必須充分認(rèn)識到利用數(shù)據(jù)挖掘技術(shù)進(jìn)行網(wǎng)絡(luò)輿情監(jiān)測、研判和引導(dǎo)的迫切性,發(fā)揮數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)輿情監(jiān)測與引導(dǎo)中的獨(dú)特優(yōu)勢,從而實(shí)現(xiàn)對網(wǎng)絡(luò)輿情及時(shí)發(fā)現(xiàn)、快速分析、準(zhǔn)確追蹤、理性引導(dǎo)。
數(shù)據(jù)挖掘助力網(wǎng)絡(luò)輿情監(jiān)測與引導(dǎo)的路徑選擇
要使數(shù)據(jù)挖掘有效助力網(wǎng)絡(luò)輿情監(jiān)測與引導(dǎo),首先應(yīng)根據(jù)網(wǎng)絡(luò)輿情演化規(guī)律,構(gòu)建適用于網(wǎng)絡(luò)輿情挖掘的相關(guān)模型和技術(shù)方法,使之滿足網(wǎng)絡(luò)等復(fù)雜系統(tǒng)中不同輿情對象間的復(fù)雜關(guān)系分析,從而為網(wǎng)絡(luò)輿情挖掘線路與進(jìn)程提供理論基礎(chǔ),實(shí)現(xiàn)一般數(shù)據(jù)挖掘模型和技術(shù)方法與網(wǎng)絡(luò)輿情挖掘與分析的有機(jī)融合。數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)輿情引導(dǎo)中的應(yīng)用可從以下四個(gè)方面展開。
網(wǎng)絡(luò)輿情關(guān)聯(lián)分析。關(guān)聯(lián)規(guī)則挖掘由Rakesh Apwal等人提出后得到了廣泛應(yīng)用,如眾人耳熟能詳?shù)钠【婆c尿布的營銷策略早已成為超市營銷決策中的經(jīng)典。時(shí)至今日,關(guān)聯(lián)規(guī)則挖掘的對象也已由基本的關(guān)系數(shù)據(jù)庫拓展到空間數(shù)據(jù)庫、多媒體數(shù)據(jù)庫乃至網(wǎng)絡(luò)數(shù)據(jù)庫,并且力求挖掘出用戶感興趣的、深層次的、通用的關(guān)聯(lián)規(guī)則。輿情關(guān)聯(lián)關(guān)系是網(wǎng)絡(luò)輿情數(shù)據(jù)庫中存在的一類重要的、可被發(fā)現(xiàn)的知識,首先需要分析網(wǎng)絡(luò)事件表征參數(shù)間的關(guān)系,進(jìn)而發(fā)現(xiàn)網(wǎng)絡(luò)輿情中隱藏的輿情關(guān)聯(lián)。為了更準(zhǔn)確表示網(wǎng)絡(luò)輿情之間的關(guān)聯(lián)度,引入網(wǎng)絡(luò)輿情支持度和網(wǎng)絡(luò)輿情可信度來量化網(wǎng)絡(luò)輿情關(guān)聯(lián)規(guī)則的相關(guān)性,從而使挖掘結(jié)果更準(zhǔn)確。例如,基于網(wǎng)絡(luò)輿情關(guān)聯(lián)規(guī)則挖掘,分析新浪微博中活躍者間關(guān)聯(lián)強(qiáng)度、堅(jiān)定支持者人數(shù)以及堅(jiān)定支持者成員的變化頻度等三個(gè)時(shí)間序列間的關(guān)聯(lián)規(guī)則,挖掘出新浪微博輿情的關(guān)聯(lián)關(guān)系,進(jìn)而為輿情研判提供重要依據(jù)。
網(wǎng)絡(luò)輿情級別劃分。社會(huì)突發(fā)事件根據(jù)自身性質(zhì)、社會(huì)危害程度、影響范圍三個(gè)指標(biāo),可以劃分為四級,即一般嚴(yán)重事件、比較嚴(yán)重事件、相當(dāng)嚴(yán)重事件與特別嚴(yán)重事件。突發(fā)公共事件的等級劃分可以為網(wǎng)絡(luò)輿情的級別劃分提供了重要依據(jù)。網(wǎng)絡(luò)輿情級別劃分是根據(jù)網(wǎng)絡(luò)輿情的特征判斷該輿情的嚴(yán)重程度。在對網(wǎng)絡(luò)輿情進(jìn)行級別劃分時(shí),首先需要構(gòu)造網(wǎng)絡(luò)輿情分類器,然后利用分類器給未知類別的網(wǎng)絡(luò)輿情賦予類別。構(gòu)造分類器的過程一般包括訓(xùn)練與測試兩個(gè)階段。在訓(xùn)練階段,建立模型描述預(yù)定的網(wǎng)絡(luò)輿情集的特征,集合中的每一條輿情信息都屬于一個(gè)預(yù)先給定的類別(如一般嚴(yán)重),利用類標(biāo)簽屬性來標(biāo)識類別。用于創(chuàng)建模型的網(wǎng)絡(luò)輿情集一般被稱為訓(xùn)練集,可以用數(shù)學(xué)公式、分類規(guī)則(IF—THEN)、神經(jīng)網(wǎng)絡(luò)或判定樹等模型來描述一個(gè)預(yù)先確定的輿情集合,即進(jìn)行有監(jiān)督的學(xué)習(xí)。在測試階段,使用創(chuàng)建的模型在網(wǎng)絡(luò)輿情測試集上進(jìn)行預(yù)測,并將測試結(jié)果與實(shí)際值進(jìn)行比較,利用測試集中被正確分類的輿情的百分比來估計(jì)模型的準(zhǔn)確率。經(jīng)過以上兩個(gè)過程,便可以形成性能穩(wěn)定、準(zhǔn)確率較高的網(wǎng)絡(luò)輿情分類模型。當(dāng)新的未知類別的網(wǎng)絡(luò)輿情出現(xiàn)后,便可以把該輿情的相關(guān)信息輸入到分類模型中,然后由分類模型判斷該輿情的嚴(yán)重程度。
網(wǎng)絡(luò)輿情聚類。網(wǎng)絡(luò)輿情聚類分析是指事先不了解網(wǎng)絡(luò)輿情集合中每一個(gè)網(wǎng)絡(luò)輿情樣本所屬的程度級別,而是根據(jù)網(wǎng)絡(luò)輿情的主要特征,如輿情發(fā)生時(shí)間、評論數(shù)量、傳播頻度等,把相同或相近特征的網(wǎng)絡(luò)輿情歸為一類,從而實(shí)現(xiàn)輿情聚類。從機(jī)器學(xué)習(xí)的角度講,輿情聚類是搜索輿情簇的無監(jiān)督學(xué)習(xí)過程。在輿情聚類過程中,分在同一個(gè)簇里的輿情對象具有很高的相似性,而不同簇中的輿情對象之間的相似性非常低。所形成的每個(gè)輿情簇都可以看作一個(gè)輿情類,由它可以導(dǎo)出規(guī)則。與級別劃分不同,聚類只對輿情數(shù)據(jù)進(jìn)行分析,由于最初并不知道如何開始,所以訓(xùn)練輿情數(shù)據(jù)一般不提供級別標(biāo)記,但是隨著聚類過程不斷推進(jìn),可以自動(dòng)給不同輿情簇分配對應(yīng)的輿情級別標(biāo)記。
網(wǎng)絡(luò)輿情傾向性分析。網(wǎng)絡(luò)輿情傾向性是指網(wǎng)民對客觀事物或公共事件所蘊(yùn)涵的感情、觀點(diǎn)、態(tài)度和立場。網(wǎng)絡(luò)具有開放性、虛擬性與匿名性的特征,給公眾提供了真實(shí)表達(dá)民意、反映民情、抒發(fā)民緒的平臺,同時(shí),網(wǎng)絡(luò)的這些特性也容易使普通事件輔以情緒化的評論,從而可能成為點(diǎn)燃網(wǎng)絡(luò)輿論的導(dǎo)火索。無論從“我爸是李剛”權(quán)力傲慢引起的廣泛關(guān)注,還是到“沒有強(qiáng)拆就沒有新中國”畸形強(qiáng)拆觀導(dǎo)致的普遍民憤,無不淋漓盡致地體現(xiàn)了網(wǎng)絡(luò)輿情的這些特性。在此情境下,網(wǎng)絡(luò)上容易出現(xiàn)激進(jìn)甚至庸俗、灰色的言論,不利于互聯(lián)網(wǎng)健康發(fā)展。因此需要借助新技術(shù)研究網(wǎng)絡(luò)輿情的傾向性及其形成與擴(kuò)散特征,有效分析網(wǎng)絡(luò)輿情發(fā)生、發(fā)展、變化的規(guī)律,從而為網(wǎng)絡(luò)輿情未來的發(fā)展趨勢做出及時(shí)、全面、準(zhǔn)確的判斷,為相關(guān)部門提供重要決策支持。網(wǎng)絡(luò)輿情傾向性分析是指通過數(shù)據(jù)挖掘技術(shù),自動(dòng)將網(wǎng)絡(luò)輿情所包含的褒貶因素挖掘出來,明確信息傳播者的真正意圖和傾向性。網(wǎng)絡(luò)輿情傾向性分析主要包括基于語義的網(wǎng)絡(luò)輿情傾向性分析與基于機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)輿情傾向性分析,目前在技術(shù)、方法與模型方面均有深入研究,主要包括序列模式挖掘方法、情感分析、主題分析等。通過這些技術(shù)方法,將網(wǎng)絡(luò)輿情中豐富的情感傾向進(jìn)行定性定量分析,及時(shí)掌握網(wǎng)絡(luò)輿情變化趨勢。在此基礎(chǔ)上,通過對隨時(shí)間持續(xù)變化的輿情進(jìn)行研判,可以較好地把握網(wǎng)絡(luò)輿情的演化規(guī)律及動(dòng)態(tài)。
數(shù)據(jù)挖掘視域下網(wǎng)絡(luò)輿情監(jiān)測與引導(dǎo)的實(shí)踐價(jià)值
新形勢下,強(qiáng)化網(wǎng)絡(luò)輿情監(jiān)測與引導(dǎo)工作不僅具有深遠(yuǎn)的理論意義,而且具有重大的實(shí)踐價(jià)值。我們要堅(jiān)持網(wǎng)絡(luò)輿情引導(dǎo)工作的頂層設(shè)計(jì)和摸著石頭過河相結(jié)合的原則,理論研究推進(jìn)和重點(diǎn)技術(shù)突破相促進(jìn),充分挖掘網(wǎng)絡(luò)輿情傳播的新特征、新規(guī)律、新機(jī)理,在網(wǎng)絡(luò)輿情監(jiān)測與引導(dǎo)過程中,要把互聯(lián)網(wǎng)這個(gè)平臺用好、用足、管好、管嚴(yán),進(jìn)一步提升做好網(wǎng)絡(luò)輿情監(jiān)測與引導(dǎo)工作的自覺性、堅(jiān)定性,進(jìn)一步增強(qiáng)責(zé)任感、使命感;堅(jiān)守網(wǎng)絡(luò)輿論把關(guān)人的職責(zé),借力數(shù)據(jù)挖掘技術(shù)不斷創(chuàng)新網(wǎng)絡(luò)輿情監(jiān)測與引導(dǎo)的技術(shù)方法,著力打造融合數(shù)據(jù)挖掘技術(shù)的網(wǎng)絡(luò)輿情監(jiān)測與引導(dǎo)的新理念、新范疇、新應(yīng)用,牢牢把握正確網(wǎng)絡(luò)輿論導(dǎo)向,把互聯(lián)網(wǎng)建設(shè)成黨的路線方針政策的學(xué)習(xí)、研究和宣傳的前沿陣地,構(gòu)筑成開展中國特色社會(huì)主義宣傳教育的重要平臺。進(jìn)而通過網(wǎng)絡(luò)引導(dǎo),努力孕育和積聚正能量,積極培育和踐行社會(huì)主義核心價(jià)值觀,在網(wǎng)絡(luò)引導(dǎo)中致力于全面提高公民道德素質(zhì),培育知榮辱、講正氣、作奉獻(xiàn)、促和諧的網(wǎng)絡(luò)風(fēng)尚,鑄就講好中國故事、傳播好中國聲音的網(wǎng)絡(luò)輿論生態(tài)。
【名詞解釋】數(shù)據(jù)挖掘,也稱作基于數(shù)據(jù)庫的知識發(fā)現(xiàn),不僅能對過去的數(shù)據(jù)進(jìn)行查詢和遍歷,并且能夠找出過去數(shù)據(jù)之間的潛在聯(lián)系,幫助人們從大量的數(shù)據(jù)中智能、自動(dòng)抽取出隱含的、事先未知的、具有潛在價(jià)值的知識。
?。ū疚南祰倚姓W(xué)院招標(biāo)課題《新媒體管理及網(wǎng)絡(luò)輿情引導(dǎo)》與《電子政務(wù)環(huán)境下的政府信息公開模式研究》的階段性研究成果。作者單位:國家行政學(xué)院電子政務(wù)研究中心)