網(wǎng)絡輿情監(jiān)測與引導呼喚與數(shù)據(jù)挖掘的有機融合
云計算、物聯(lián)網(wǎng)、智慧城市、大數(shù)據(jù)等新技術和新理念的出現(xiàn)使網(wǎng)絡輿情支撐技術大環(huán)境正在進行著深刻的變革,給公民聽政、參政、議政、督政提供了新的技術平臺,給黨政機關拓寬了解世情民意的渠道,網(wǎng)絡逐漸成為公眾便捷獲取信息、及時表達民情、充分反映民意的主渠道,同時也必然產(chǎn)生巨大的輿論壓力。隨著海量網(wǎng)絡輿情成指數(shù)增加,雖然傳統(tǒng)的數(shù)據(jù)處理技術能夠較好地完成輿情統(tǒng)計與分析,OLAP等在線分析處理技術也可以實現(xiàn)對輿情研判、決策等基本功能,但很顯然,這些技術由于不支持對海量輿情潛在信息的發(fā)現(xiàn)與挖掘,也無法找到輿情信息間存在的關系或規(guī)則,不能根據(jù)現(xiàn)有輿情預測未來發(fā)展趨勢,由此導致了“數(shù)據(jù)爆炸,知識貧乏”的奇怪現(xiàn)象。時代熱切企盼著網(wǎng)絡輿情引導的理念創(chuàng)新與技術創(chuàng)新。
在這種背景下,必須充分認識到利用數(shù)據(jù)挖掘技術進行網(wǎng)絡輿情監(jiān)測、研判和引導的迫切性,發(fā)揮數(shù)據(jù)挖掘技術在網(wǎng)絡輿情監(jiān)測與引導中的獨特優(yōu)勢,從而實現(xiàn)對網(wǎng)絡輿情及時發(fā)現(xiàn)、快速分析、準確追蹤、理性引導。
數(shù)據(jù)挖掘助力網(wǎng)絡輿情監(jiān)測與引導的路徑選擇
要使數(shù)據(jù)挖掘有效助力網(wǎng)絡輿情監(jiān)測與引導,首先應根據(jù)網(wǎng)絡輿情演化規(guī)律,構建適用于網(wǎng)絡輿情挖掘的相關模型和技術方法,使之滿足網(wǎng)絡等復雜系統(tǒng)中不同輿情對象間的復雜關系分析,從而為網(wǎng)絡輿情挖掘線路與進程提供理論基礎,實現(xiàn)一般數(shù)據(jù)挖掘模型和技術方法與網(wǎng)絡輿情挖掘與分析的有機融合。數(shù)據(jù)挖掘技術在網(wǎng)絡輿情引導中的應用可從以下四個方面展開。
網(wǎng)絡輿情關聯(lián)分析。關聯(lián)規(guī)則挖掘由Rakesh Apwal等人提出后得到了廣泛應用,如眾人耳熟能詳?shù)钠【婆c尿布的營銷策略早已成為超市營銷決策中的經(jīng)典。時至今日,關聯(lián)規(guī)則挖掘的對象也已由基本的關系數(shù)據(jù)庫拓展到空間數(shù)據(jù)庫、多媒體數(shù)據(jù)庫乃至網(wǎng)絡數(shù)據(jù)庫,并且力求挖掘出用戶感興趣的、深層次的、通用的關聯(lián)規(guī)則。輿情關聯(lián)關系是網(wǎng)絡輿情數(shù)據(jù)庫中存在的一類重要的、可被發(fā)現(xiàn)的知識,首先需要分析網(wǎng)絡事件表征參數(shù)間的關系,進而發(fā)現(xiàn)網(wǎng)絡輿情中隱藏的輿情關聯(lián)。為了更準確表示網(wǎng)絡輿情之間的關聯(lián)度,引入網(wǎng)絡輿情支持度和網(wǎng)絡輿情可信度來量化網(wǎng)絡輿情關聯(lián)規(guī)則的相關性,從而使挖掘結(jié)果更準確。例如,基于網(wǎng)絡輿情關聯(lián)規(guī)則挖掘,分析新浪微博中活躍者間關聯(lián)強度、堅定支持者人數(shù)以及堅定支持者成員的變化頻度等三個時間序列間的關聯(lián)規(guī)則,挖掘出新浪微博輿情的關聯(lián)關系,進而為輿情研判提供重要依據(jù)。
網(wǎng)絡輿情級別劃分。社會突發(fā)事件根據(jù)自身性質(zhì)、社會危害程度、影響范圍三個指標,可以劃分為四級,即一般嚴重事件、比較嚴重事件、相當嚴重事件與特別嚴重事件。突發(fā)公共事件的等級劃分可以為網(wǎng)絡輿情的級別劃分提供了重要依據(jù)。網(wǎng)絡輿情級別劃分是根據(jù)網(wǎng)絡輿情的特征判斷該輿情的嚴重程度。在對網(wǎng)絡輿情進行級別劃分時,首先需要構造網(wǎng)絡輿情分類器,然后利用分類器給未知類別的網(wǎng)絡輿情賦予類別。構造分類器的過程一般包括訓練與測試兩個階段。在訓練階段,建立模型描述預定的網(wǎng)絡輿情集的特征,集合中的每一條輿情信息都屬于一個預先給定的類別(如一般嚴重),利用類標簽屬性來標識類別。用于創(chuàng)建模型的網(wǎng)絡輿情集一般被稱為訓練集,可以用數(shù)學公式、分類規(guī)則(IF—THEN)、神經(jīng)網(wǎng)絡或判定樹等模型來描述一個預先確定的輿情集合,即進行有監(jiān)督的學習。在測試階段,使用創(chuàng)建的模型在網(wǎng)絡輿情測試集上進行預測,并將測試結(jié)果與實際值進行比較,利用測試集中被正確分類的輿情的百分比來估計模型的準確率。經(jīng)過以上兩個過程,便可以形成性能穩(wěn)定、準確率較高的網(wǎng)絡輿情分類模型。當新的未知類別的網(wǎng)絡輿情出現(xiàn)后,便可以把該輿情的相關信息輸入到分類模型中,然后由分類模型判斷該輿情的嚴重程度。
網(wǎng)絡輿情聚類。網(wǎng)絡輿情聚類分析是指事先不了解網(wǎng)絡輿情集合中每一個網(wǎng)絡輿情樣本所屬的程度級別,而是根據(jù)網(wǎng)絡輿情的主要特征,如輿情發(fā)生時間、評論數(shù)量、傳播頻度等,把相同或相近特征的網(wǎng)絡輿情歸為一類,從而實現(xiàn)輿情聚類。從機器學習的角度講,輿情聚類是搜索輿情簇的無監(jiān)督學習過程。在輿情聚類過程中,分在同一個簇里的輿情對象具有很高的相似性,而不同簇中的輿情對象之間的相似性非常低。所形成的每個輿情簇都可以看作一個輿情類,由它可以導出規(guī)則。與級別劃分不同,聚類只對輿情數(shù)據(jù)進行分析,由于最初并不知道如何開始,所以訓練輿情數(shù)據(jù)一般不提供級別標記,但是隨著聚類過程不斷推進,可以自動給不同輿情簇分配對應的輿情級別標記。
網(wǎng)絡輿情傾向性分析。網(wǎng)絡輿情傾向性是指網(wǎng)民對客觀事物或公共事件所蘊涵的感情、觀點、態(tài)度和立場。網(wǎng)絡具有開放性、虛擬性與匿名性的特征,給公眾提供了真實表達民意、反映民情、抒發(fā)民緒的平臺,同時,網(wǎng)絡的這些特性也容易使普通事件輔以情緒化的評論,從而可能成為點燃網(wǎng)絡輿論的導火索。無論從“我爸是李剛”權力傲慢引起的廣泛關注,還是到“沒有強拆就沒有新中國”畸形強拆觀導致的普遍民憤,無不淋漓盡致地體現(xiàn)了網(wǎng)絡輿情的這些特性。在此情境下,網(wǎng)絡上容易出現(xiàn)激進甚至庸俗、灰色的言論,不利于互聯(lián)網(wǎng)健康發(fā)展。因此需要借助新技術研究網(wǎng)絡輿情的傾向性及其形成與擴散特征,有效分析網(wǎng)絡輿情發(fā)生、發(fā)展、變化的規(guī)律,從而為網(wǎng)絡輿情未來的發(fā)展趨勢做出及時、全面、準確的判斷,為相關部門提供重要決策支持。網(wǎng)絡輿情傾向性分析是指通過數(shù)據(jù)挖掘技術,自動將網(wǎng)絡輿情所包含的褒貶因素挖掘出來,明確信息傳播者的真正意圖和傾向性。網(wǎng)絡輿情傾向性分析主要包括基于語義的網(wǎng)絡輿情傾向性分析與基于機器學習的網(wǎng)絡輿情傾向性分析,目前在技術、方法與模型方面均有深入研究,主要包括序列模式挖掘方法、情感分析、主題分析等。通過這些技術方法,將網(wǎng)絡輿情中豐富的情感傾向進行定性定量分析,及時掌握網(wǎng)絡輿情變化趨勢。在此基礎上,通過對隨時間持續(xù)變化的輿情進行研判,可以較好地把握網(wǎng)絡輿情的演化規(guī)律及動態(tài)。
數(shù)據(jù)挖掘視域下網(wǎng)絡輿情監(jiān)測與引導的實踐價值
新形勢下,強化網(wǎng)絡輿情監(jiān)測與引導工作不僅具有深遠的理論意義,而且具有重大的實踐價值。我們要堅持網(wǎng)絡輿情引導工作的頂層設計和摸著石頭過河相結(jié)合的原則,理論研究推進和重點技術突破相促進,充分挖掘網(wǎng)絡輿情傳播的新特征、新規(guī)律、新機理,在網(wǎng)絡輿情監(jiān)測與引導過程中,要把互聯(lián)網(wǎng)這個平臺用好、用足、管好、管嚴,進一步提升做好網(wǎng)絡輿情監(jiān)測與引導工作的自覺性、堅定性,進一步增強責任感、使命感;堅守網(wǎng)絡輿論把關人的職責,借力數(shù)據(jù)挖掘技術不斷創(chuàng)新網(wǎng)絡輿情監(jiān)測與引導的技術方法,著力打造融合數(shù)據(jù)挖掘技術的網(wǎng)絡輿情監(jiān)測與引導的新理念、新范疇、新應用,牢牢把握正確網(wǎng)絡輿論導向,把互聯(lián)網(wǎng)建設成黨的路線方針政策的學習、研究和宣傳的前沿陣地,構筑成開展中國特色社會主義宣傳教育的重要平臺。進而通過網(wǎng)絡引導,努力孕育和積聚正能量,積極培育和踐行社會主義核心價值觀,在網(wǎng)絡引導中致力于全面提高公民道德素質(zhì),培育知榮辱、講正氣、作奉獻、促和諧的網(wǎng)絡風尚,鑄就講好中國故事、傳播好中國聲音的網(wǎng)絡輿論生態(tài)。
【名詞解釋】數(shù)據(jù)挖掘,也稱作基于數(shù)據(jù)庫的知識發(fā)現(xiàn),不僅能對過去的數(shù)據(jù)進行查詢和遍歷,并且能夠找出過去數(shù)據(jù)之間的潛在聯(lián)系,幫助人們從大量的數(shù)據(jù)中智能、自動抽取出隱含的、事先未知的、具有潛在價值的知識。
?。ū疚南祰倚姓W院招標課題《新媒體管理及網(wǎng)絡輿情引導》與《電子政務環(huán)境下的政府信息公開模式研究》的階段性研究成果。作者單位:國家行政學院電子政務研究中心)