時間:2022-04-27 08:24:20
序論:在您撰寫網絡輿情監(jiān)測時,參考他人的優(yōu)秀作品可以開闊視野,小編為您整理的7篇范文,希望這些建議能夠激發(fā)您的創(chuàng)作熱情,引導您走向新的創(chuàng)作高度。
1.1重大事件。所有的重大事件的發(fā)生都會在很短的時間內迅速在網絡上傳播開來,與事件發(fā)生有關的各個報道,新聞,各方面的消息和熱點都會在各個網站上鋪天而來,在短時間內就會出現大量的評論,跟貼和發(fā)帖等等。
1.2突發(fā)事件。量變到質變的過程是突發(fā)事件產生的一個重要階段,例如“日本大地震后我國的搶鹽事件”,在發(fā)生初期,并沒有引起太多人的關注,只是在民間出現了許多的“謠言”,但其迅速擴散,就會影響到廣大群眾,并有可能造成整個社會的恐慌。
1.3國家的經濟工作和重點工作。網絡上的主流的意識形態(tài)還是需要各個新聞媒體來傳播,需要政府和組織來引導,繼而形成被大眾所接受的健康向上的主流輿論,政府部門要引導人民群眾,最大限度地在廣大人民群眾中形成共識,來統(tǒng)一不同領域,不同階級中的意識和信念,形成了社會的主流言論。
1.4一些關系國際民生的重大政策的改革更容易引起人們的廣泛關注,形成網絡輿情熱點事件。
1.5和大多數人民自身利益密切相關的事件。因為輿情的一個重要作用就是人民群眾對自身利益的訴求表達的一個重要渠道。在群眾利益受到傷害時,他自然需要一個平臺來尋求幫助和進行訴求,網絡就是這樣一個很好的輿情平臺。
2網絡輿情監(jiān)測系統(tǒng)的設計
網絡輿情監(jiān)測系統(tǒng)包含三個層次,自下而上分別為信息采集層、信息挖掘層、信息服務層。每一層為其上一層提供基礎數據,以及為進一步分析奠定基礎。
2.1輿情信息采集層。信息采集層的基本任務是從數據格式多種多樣的網頁中采集出其蘊含的豐富的、各種各樣的輿情信息。采集層的最下層為信息采集的目標網站,如新浪、網易、搜狐、新華網、人民網、鳳凰網、貓撲、天涯社區(qū)等;中間層包含爬蟲管理模塊、預處理模塊、分類存儲模塊,爬蟲管理模塊主要采用網絡爬蟲技術獲取互聯(lián)網上的輿情信息;最上層將采集的文本信息分為Web內容信息、Web結構和使用記錄信息兩部分內容。
2.2輿情信息挖掘層。開展輿情信息深度挖掘,發(fā)現的熱點問題、分析其態(tài)度傾向、處置構成危害的敏感信息是互聯(lián)網輿情信息挖掘層的主要任務。它通過分析輿情信息采集層提供的數據,能夠檢測網絡話題、分析民眾的態(tài)度傾向、監(jiān)測網絡敏感信息、評估輿情態(tài)勢等,為輿情信息服務層服務相關部門提供客觀依據,是輿情信息處理的核心內容。主要包含文本信息預處理模塊、網絡話題檢測模塊、輿情傾向性分析模塊、敏感信息監(jiān)控模塊。
網絡輿情監(jiān)測以監(jiān)測社會民生輿論為主,但“網絡水軍”往往將商業(yè)話題變相說成社會生活話題,以此來吸引眼球。這樣,刻意制造的他生輿論就混雜在輿論陣營中,表達了大眾的非本意輿論,掩蓋了自然形成的社會輿論。如此一來,網絡輿情監(jiān)測統(tǒng)計的輿論數據就會失真,并對學術研究機構和政府造成誤導。而所有這些,無疑也會降低網絡輿情監(jiān)測的公信力。
網絡輿情監(jiān)測作為一種嚴謹的科學體系,可以利用當今先進的計算機與網絡技術,通過先期技術處理和后期操作對網絡輿情進行追根溯源,通過考量輿論的來源甄別出網絡輿論熱點的真?zhèn)?。鑒于當今網絡水軍廣泛存在的現實,筆者提出以下幾種方案完善網絡輿情監(jiān)測工作的輿情篩選功能。
1.情感詞分析方法
“網絡水軍”在網上的帖子往往是非理性的、帶有強烈感彩的,或是極力美化雇主的產品或服務,或是極力貶低雇主競爭對手的產品或服務,整體上傾向性比較強烈。因此,我們就可以通過對論壇或貼吧用戶的帖子的文本分析,主要是對情感詞的分析,來判斷這個用戶是不是“網絡水軍”,以及他所主導的輿論是不是有意制造的他生輿論。
通過傾向性分析可以明確網絡傳播者的意圖和傾向,通俗地說,文本輿情描述的是文本所傳遞的情感。對文本輿情進行分析,實際上就是試圖根據文本的內容提煉出作者的情感方向。網絡文本的傾向性分析就是挖掘網絡文本內容蘊涵的各種觀點、喜好、態(tài)度、情感等非內容或非事實信息。①
此前已有研究制定了一套完整的方法和公式,其基本思路是:首先進行互聯(lián)網信息采集獲得數據,然后通過網頁頁面分析技術抽取元數據(比如信息者、信息時間、信息來源等)和正文信息,采用機器學習方法對正文信息進行情感分類,判斷其為正面信息或為負面信息。經過統(tǒng)計后,在特定的一段時間內,當某人發(fā)表的正面或者負面信息比重超過預設閾值時,則認為其為“網絡水軍”。②
設定特定的時間段,信息者AN篇有關主題P的信息,其中正面信息X篇,負面信息Y篇(X+Y≤N)。設閾值為T(0
那么,信息者A為“網絡水軍”。
根據最新數據顯示,92.3%的網民經常訪問的網絡社區(qū)數量在2個以上,其中27.2%的網民經常訪問2個網絡社區(qū),29.1%的網民經常訪問3個網絡社區(qū),經常訪問4個以上網絡社區(qū)的網民達到36%,③網民平均每人使用3.09個網絡社區(qū),這里將其簡記作3個。那么,在上述公式中,X/Y=3(或Y/X=3),此時的閾值T為0.5。又因為“網絡水軍”的發(fā)帖量遠大于一般網民的平均發(fā)帖量,所以閾值T應該略大于0.5。
換句話說,在現階段,當一個發(fā)帖人的Q值大于0.5時,我們就可以基本確定這個人是“水軍”,進一步確定他所主導的輿論可能是他生輿論;而且Q值越大,這種疑似程度越強??偨Y起來看,情感詞分析方法是判斷發(fā)帖人個人身份的一種有效途徑,在計算機輔助技術的幫助下,將大大提高篩選的效率,其工作流程如圖1所示。
圖1網絡輿情信息文本分析工作流程④
上圖中,建立假設和檢驗假設并不是存在于每一個分析文本中,為可選項目。輿論監(jiān)測者首先要制定有針對性的研究意圖,然后按照統(tǒng)計學原理選擇科學合理的樣本。定義分析單元就是定義分析樣本的每一個元素,再形成分析類目即分析系統(tǒng),使之適應所提出的問題,同時使所有類目具有互斥性、完備性和信度。最后是通過統(tǒng)計、計算、分析得出結論。
2.相同IP與ID的統(tǒng)計分析
情感詞分析可以從個人角度篩選出“網絡水軍”,對于一個主題帖子是不是“網絡水軍”所為的考察,我們可以通過對相同IP地址的統(tǒng)計分析來完成。
正如前文所說,“網絡水軍”在網上發(fā)帖時會用很多ID賬號,即網友所說的“馬甲”,這些ID或網名是不同的,所以單一根據ID無法辨別發(fā)帖、回帖是不是少數人所為。
“網絡水軍”每天長時間掛在網上刷帖,盡管更換不同的ID,但他們的上網IP地址是不變的。那么,通過統(tǒng)計每一個ID發(fā)帖時所使用的IP地址,就可以辨別出哪些不同ID發(fā)的帖子是出于同一臺電腦即同一個人。如果一個論壇里的帖子出現了大量相同的IP地址,或出現在不同論壇里的同一主題的帖子中出現了大量相同IP地址,那么就可以肯定,這個輿論主題是網絡水軍人為制造出來的。
另外,如果在同一處的同一個ID使用不同的IP,那么說明這可能是同一個人在不同時間發(fā)表的言論,或是不同的人使用網絡營銷公關公司統(tǒng)一發(fā)放的“馬甲”發(fā)表的言論。于是,就可以根據這個ID所使用的IP,繼續(xù)順藤摸瓜地找到本論壇中其他ID發(fā)表的言論和其他論壇中同一個IP使用的ID發(fā)表的言論。這樣就形成了一個由IP和ID構成的無盡的關聯(lián)網絡,在這個網絡上的每一條帖子都可以確定為是“網絡水軍”制造的(如圖2)。
圖2IP、ID關聯(lián)網絡
這種方法同樣需要計算機技術的輔助。另外,要根據現實情況制定評價標準和體系,我們不妨統(tǒng)計出“水軍”發(fā)帖的個數,并求出這些帖子在整個話題帖子中的所占比例,這個比例越高,那么這個輿論熱點系炒作所為的疑似程度就越高。還可以根據實際操作中的情況,制定出一個更復雜的評價體系,將每一個指標賦予不同的權重,分別賦值,求出最后的疑似程度值。
3.歷時性調研
由于現在“網絡水軍”和網絡營銷公關公司的大量涌現,一些企業(yè)或團體已經認識到了網絡輿論對其生存發(fā)展的影響。當一家企業(yè)受到網絡打手的輿論攻擊時,也會自覺進行調查,并盡力澄清。同時,公安機關對于重大輿論事件也會介入,比如伊利―蒙?!跋莺﹂T”。這些調查出的結論都可以成為網絡輿情監(jiān)測辨別輿論真?zhèn)蔚牟牧稀?/p>
4.省略/s2009/dcfb/,2011年1月11日
輿情監(jiān)測工作由來已久,最早的網絡輿情監(jiān)測手段也是基于傳統(tǒng)的手工模式。通過雇傭大量工作人員對指定的監(jiān)測頁面進行監(jiān)測,使用人工方式,對某些重點監(jiān)測詞匯進行頻率統(tǒng)計來尋找輿情動向。然而隨著互聯(lián)網的蓬勃發(fā)展,傳統(tǒng)的方式已經落伍,要對網絡輿情進行監(jiān)測,就必然要依托于一個功能強大的互聯(lián)網輿情監(jiān)測系統(tǒng)進行。伴隨著網絡的發(fā)展,國內外已有一系列的網絡輿情監(jiān)測系統(tǒng)正式投入使用,這些系統(tǒng)通常是依托于政府部門、學術機構以及企業(yè)媒體建設的,分別基于不同的需求(行政決策的、學術研究的、商業(yè)開發(fā)的),從不同的角度對網絡輿情進行監(jiān)測。最早的相關研究始于TDT(TopicDetectionandTracking)項目[2],它是美國國防高級研究計劃局主導的,旨在從新聞網頁中找到未知話題并對話題進行追蹤。該項目歷經多年發(fā)展演變,其核心研究內容分為報道切分、話題追蹤、話題監(jiān)測、首次話題報告以及關聯(lián)監(jiān)測這5個方面的內容[3]。在我國,由于中西文在文本挖掘、分詞方面的巨大差異,以及社會經濟等方面的差異,基于漢語的網絡輿情監(jiān)測研究起步較晚[4]。目前,學院型的輿情研究機構主要有北京大學中國國情研究中心、中國人民大學輿論研究所、上海交通大學輿情研究實驗室等[5]。
2網絡輿情監(jiān)測系統(tǒng)框架
從過程上看,網絡輿情監(jiān)測的本質是從網絡上獲取數據、分析數據以及按用戶需求呈現分析結果的過程,因此在系統(tǒng)實現時,從數據流向的角度,可以把一個網絡輿情監(jiān)測系統(tǒng)劃分為數據獲取模塊、數據預處理模塊、數據分析模塊以及結果呈現模塊,整個系統(tǒng)的結構如圖1所示。
2.1數據獲取模塊
數據獲取模塊的主要功能是全天候的、自動的從整個網絡上,或者某些特定網絡上獲取進行輿情分析的原始數據。在自動獲取數據的過程中,有兩方面的要求。一方面,是獲取的相關輿情數據相對于整個數據的覆蓋率的要求,即要盡可能地獲取盡量全面的原始數據;另一方面,則是對數據準確率的要求,即所需數據要盡可能貼近用戶關心的輿情熱點。只有在覆蓋率和準確率全部達標的情況下,才能更好地對網絡輿情進行分析預測。目前,常見的數據獲取方式有兩種:(1)網絡爬蟲方式。互聯(lián)網的一項基本協(xié)議是HTML協(xié)議,基于該協(xié)議,網絡中大量資源以統(tǒng)一資源定位符(URL)相互聯(lián)系,構成一個有機整體。網絡爬蟲從一個預先定義好的URL列表開始,依次訪問該列表上的所有頁面進行數據抓取,并分析當前訪問頁面中的其他URL,選擇符合要求的URL加入待訪問隊列,試圖以深度或者廣度的方式對限定范圍的網絡進行遍歷式的訪問,以獲取該網絡的所有信息。(2)元搜索采集技術。搜索引擎是大多數網民訪問網絡的入口,目前有眾多的搜索引擎服務提供商,其檢索過程有不同的側重方向,檢索結果也各不相同??梢栽谌舾刹煌乃阉饕嫔喜渴鹪阉饕?,通過對下層引擎的調用返回多個搜索結果,并基于一定的算法對不同結果進行選擇。使用該方法能夠有效地提高數據獲取的覆蓋率和準確率,且系統(tǒng)構建較為簡單。
2.2數據預處理模塊
Web頁面的數據有其自身特點,它是一種半結構化的數據,整個數據包括內容和描述兩個部分,且兩者混雜在一起。直接通過數據獲取模塊抓取的頁面內容復雜,存在大量噪音,文本內容非結構化,無法直接進行下一步的分析工作,對這些原始頁面必須進行一次數據預處理。預處理的過程大體上分為兩步:(1)進行網頁內容提取。將用戶關心的內容(例如新聞的內容、對主題的討論等)從噪音(如頁面上的廣告、導航以及其他超鏈接)中找出。將頁面轉化為一個HTML標簽樹,根據已有知識建立提取規(guī)則,最后依據規(guī)則對頁面內容進行提取。如何建立一個合適的規(guī)則是提取工作的核心,可以針對某類特定的網站建立專屬規(guī)則,也可以針對一般頁面的結構特點建立一些通用規(guī)則。(2)進行中文文本分詞。自然語言中,詞是最小的獨立活動的語言成分。要對頁面提取獲得的非結構化連續(xù)文本進行處理,首要的工作就是對其進行分詞。分詞是將輸入的一段文本分解為符合邏輯的一組單詞的過程,例如輸入“羽毛球拍”時,依照某種分詞算法就可以初步將其分解為羽毛、羽毛球、球拍3個單詞。最簡單的分詞算法以詞典為基礎,通過對字符串匹配完成初步工作,之后輔以少量詞法、語法和語義規(guī)則;另一種思路是基于統(tǒng)計進行分詞,統(tǒng)計文本中相鄰字同時出現的頻率,頻率越高就越可能構成一個詞;還有一些基于規(guī)則的分詞算法,通過模擬人對句子的理解過程,對當前句子的語法、句法、詞法進行分析推理,能夠自動補全未登錄詞條。
2.3數據分析模塊
數據分析模塊是整個網絡輿情監(jiān)測系統(tǒng)的智能核心,在本質上是一個數據挖掘的過程。它負責將前期獲得的網頁內容進行深度挖掘,發(fā)現新的輿情熱點,并對原有的輿情趨勢進行分析。一個典型的系統(tǒng)應具備以下幾方面的功能:(1)主題聚類。聚類可以很直觀地從海量數據中發(fā)現新的主題。將處理過后的網頁內容歸一化到某個特征空間中,在這個特征空間中以某種方式,將特征接近的頁面內容劃分為不同的類別,相應類別的聚類中心就可以認為是新的主題。(2)熱點發(fā)現。在當今網絡時代,每天產生的輿情主題眾多,其中有些主題能夠迅速成為當下的輿情熱點,輿情監(jiān)測系統(tǒng)需要將這些輿情熱點從眾多主題中篩選出來,推送給輿情分析人員。篩選的時候應該注意“熱點”一詞不同方面的含義,最直觀的含義就是某主題在某段時間內出現的頻次;再有一方面的含義就是某主題除頻次以外的權重,例如該主題來源頁面的影響力、該主題的發(fā)展速度等。(3)話題追蹤。網絡話題的生命周期從最初的事件主題開始,經過一段時間的發(fā)展演化成為輿情熱點,又經歷一段時間的發(fā)展變化逐漸熱度降低,最后消散。還有,在這個過程中話題的變異分支過程,都是在基于網絡輿情進行決策分析時可以納入考慮的影響因素。在分析大量話題生命周期后,可以從中總結一定的規(guī)律,對當前某話題的下個階段進行一定的預測。(4)情感識別。網絡話題除了對某個發(fā)生事件的客觀描述外,還有一定的情感傾向,尤其是在網民對該話題的回復中,這種情感傾向會更加明顯地體現出來。從整體上看,這種情感傾向會分為贊成、反對以及中立這3種大的方向。將人們對某個輿情熱點的情感傾向進行直觀體現,有助于更好地進行分析決策。這種分析不光要對輿情的當前狀態(tài)進行情感識別,還要對該話題的發(fā)展過程中某個階段的情感同時進行分析,以掌握輿論對該話題情感傾向的變化過程。
2.4結果呈現模塊
網絡輿情分析的目的是為相關的決策提供支撐依據,其分析結果需要簡單直觀地提供給決策分析人員,并在初步分析的基礎上對整個結果進行二次挖掘。這就需要結果呈現模塊能夠動態(tài)圖形化地展示分析結果,并對某些輿情熱點、輿情的重大拐點進行主動推送警告。根據一般化的網絡輿情分析需求,必須實現的功能有:(1)針對所有主題的查詢。(2)新主題的推送。(3)輿情熱點、拐點的警告。(4)輿情發(fā)展態(tài)勢圖。
3總結展望
關鍵詞:網絡輿情;輿情監(jiān)測;指標體系
有效加強網絡輿情監(jiān)測分析,才能實時掌握網絡輿情動態(tài)。網絡輿情監(jiān)測分析工作重要環(huán)節(jié)包括采集、整理和分析輿情信息,需要構建一定的指標體系,評價揭示網絡輿情信息的特征與變化規(guī)律。指標是在評價某些研究對象所確定的依據和標準,包括指標名稱和數值。網絡輿情指標體系是由相互聯(lián)系、相互補充的指標組成的統(tǒng)一整體,用于反映網絡輿情的綜合狀況,揭示其中的各個方面。本文首先介紹輿情監(jiān)測的來源范圍,接著闡述網絡輿情監(jiān)測指標的構建原則與內容,提出從主題匯聚、熱度、內容傾向性、預警等方面構建網絡輿情監(jiān)測指標體系。
1 網絡輿情監(jiān)測來源
網絡信息的來源不斷趨于多樣化,從傳統(tǒng)的新聞網站、博客論壇,發(fā)展到微博、微信等社會化網絡應用[2]。準確把握輿情態(tài)勢,防止監(jiān)測分析片面化,需要增加信息來源范圍。然而,輿情監(jiān)測難以捕獲所有網絡信息,網絡輿情的來源選擇就顯得非常重要。在網絡上,表現為圍繞新聞、事件、問題與個案等產生的網絡信息。網絡輿情的信息來源選擇主要包括:
(1)主流媒體新聞網站。網絡新聞是民眾獲取信息的重要來源,特別是主流媒體的新聞。重大性與突發(fā)性輿情都會及時出現在主流媒體,聚集大量網民跟帖評論,是輿情的重要來源與傳播源頭。(2)論壇。在網絡社區(qū)中,網民會發(fā)出具有個人觀點看法的各類信息。在輿情監(jiān)測工作中,接觸到的近半信息都來自于各種論壇。(3)博客。博客是個人分享、交流思想知識的空間,會對熱點和新聞事件、特定話題和現象發(fā)表個人評論,是輿情信息的重要載體之一。博客數量眾多,主要采集專家、知名人物的博客及網民回復。(4)視頻網站。視頻網站是社會生活和事件的記錄與者,并且大多視頻網站提供給留言功能,比如優(yōu)酷、愛奇藝等。視頻信息鮮活,網民會分享觀感看法與態(tài)度,視頻標題與描述信息為輿情數據的整理分析提供了可能和便利。以往工作容易忽視這類輿情載體,而實際中一些輿情事件會較早通過視頻網站傳播。輿情監(jiān)測工作需要重視視頻信息的價值,及時采集抽取其中的有價值信息。(5)社交媒體。在社交媒體應用上,國內主要是微博和微信。微博相對數據開放,數據量巨大,很難在較短的輪詢時間窗口完成采集遍歷。所以,與傳統(tǒng)博客類似,選擇其中的部分微博。微信主要限制在個人通訊范疇,主要將微信公眾號作為輿情信息來源。另外,一些網站由于贏利、點擊量等原因,有意甚至惡意炒作負面信息。所以,要區(qū)分標識這類信息來源。同時,在采集器設置上進行一定限制和過濾,避免采集處理過多無效無關數據。
2 監(jiān)測指標構建原則
網絡輿情指標體系的構建原則應包括:(1)主題性。具體的輿情工作具有明確的服務對象,其輿情內容具有鮮明的主題、行業(yè)或領域性質。輿情監(jiān)測的目的是及時識別問題與風險。因此,輿情指標應對各類信息做出靈敏響應。(2)可靠性。指標的選取要有相對可靠性與穩(wěn)定性,確保指標的使用在時間上有延續(xù)性[1]。(3)系統(tǒng)性。網絡輿情監(jiān)測分析工作是一項十分復雜的過程,涉及內容眾多。指標體系一定要盡量全面完整形成整體,覆蓋輿情工作流程,從多層次多角度揭示網絡輿情特征。(4)實用性。輿情監(jiān)測指標必須反映輿情演化趨勢與客觀規(guī)律,符合網絡輿情工作需求與相關流程,便于分析和引導輿情。同時,指標的計算分析結果要盡量便于理解與解釋說明,為輿情簡報等工作提供必備的數據支持。
3 監(jiān)測指標體系
(1)主題聚合
按照內容相關度準確關聯(lián)聚合輿情信息,是準確把握輿情整體走向、媒體與網民言論態(tài)度的前提。主題聚合即指依據信息內容實現信息的分類與聚類,是輿情話題發(fā)現與話題追蹤的基本支撐。從技術實現角度,主題聚合涉及信息內容分析,大多都是基于詞語匹配的聚分類方法實現輿情話題發(fā)現與追蹤等主題聚合功能。然而,文本中存在大量詞形不同,但意義關聯(lián)的近義詞、同義詞與相關詞,內容相同或相近的新聞、帖文會出現在不同的頁面與帖文。輿情信息中包括大量短文本,特別是網民回帖評論,存在明顯的語義特征稀疏問題。分類體系只限于關鍵詞本身,不具備主題詞的語義描述,容易影響聚分類的準確率與召回率,主題聚合指數的性能會受到明顯限制。一個解決方法是構建語義知識,并擴展語義計算模型提高分析的準確程度;利用當前的最新技術,比如深度學習方法,通過構建具有多隱層的學習模型,以海量輿情數據作為訓練集,學習擴展語義特征,提升內容分析的準確程度。
(2)熱度
輿情熱度衡量輿情被關注的程度與傳播范圍。輿情熱度主要包括輿情關注度、傳播覆蓋度、輿情權威度等二級指標。一些研究提出地域關注度指標[3],但網民IP地址對于第三方采集系統(tǒng)是難以大范圍直接獲取的。其中,輿情關注度采用主題內容下輿情信息的關注數量衡量,具體是篇目、瀏覽、回復數量的綜合加權值,一般以線性累加和公式計算。該指標主要從網民角度,衡量輿情內容的被關注程度和感興趣情況。覆蓋度是指主題信息在采集來源站點中出現的比例。輿情信息來源站點是經過篩選的,代表輿情在整個監(jiān)測范圍內的傳播程度。由于信息來源規(guī)模與特點不同,所以需要對來源類型預設參數再進行比例計算。權威度指輿情信息的來源權威度,比如人民網的權威度較高而小型商業(yè)新聞網站的權威度低,知名公眾人物的博客權威度較高。權威度通過預設參數區(qū)分主流媒體、論壇、博客、微信公眾號的來源指標。最后,將以上二級指標綜合加權,進行標準化處理得到主題熱度。
(3)內容傾向
內容傾向是信息內容中包含的觀點態(tài)度,內容傾向指標用于統(tǒng)計輿情信息中的各類情感傾向類型數量。傾向類型主要分為兩類:正面(褒、支持)、負面(貶、反對)。文本中的句子不僅包括情感詞,而且包含一些具有較強情感色彩的形容詞、程度副詞、感嘆詞、否定詞等影響判斷情感傾向的因素。區(qū)分輿情的傾向性,需要構建情感詞庫作為智力支撐,才能提高情感判斷的范圍與準確性。比如鄙視、侵犯屬于負面動詞,而擁護、贊揚屬于正面動詞,安全、漂亮屬于正面形容詞?!氨梢曔@種言論”,“這種裝置不安全”,可以依據其中的動詞形容詞判斷情感傾向。
傳統(tǒng)手工構建的情感詞典覆蓋面有限,難以滿足實際運用。考慮到技術實施的快速性、易用性以及語義問題。借助已有情感詞典構建基本情感詞庫,運用Word2Vector工具將語料庫(比如已采集輿情信息、維基百科知識)轉換為詞向量,計算其他詞語與已知情感詞的語義距離,構建情感詞特征空間[4]。通過擴展情感詞庫,判斷廣泛的情感傾向。輿情信息中的回帖或評論大多由較短句構成,其中句子s中的情感詞表示為,s的情感類型。其中,表示詞wi的傾向類型。如果wi前面否定詞個數是奇數,則反置wi的極性傾向。將傾向性判斷問題轉化為文本分類問題,這樣可以有效判斷各種長短文本的情感傾向,得到主題信息的情感態(tài)度頻率分布與內容傾向趨勢。
(4)預警
網絡輿情表現為海量的網絡信息,輿情變化程度對應相應數據的特征與趨勢。所以,監(jiān)測分析數據變化可以描述輿情的影響趨勢,對網絡輿情進行危機預警。當前,網絡輿情事件處理存在應急準備不足,報送時間不及時,突發(fā)事件響應速度慢等不足。一個重要原因是網絡輿情預警能力相對較弱。輿情監(jiān)測需要增強輿情信息的分析和預測,將工作重點從單純的收集有效數據,向深入研判與預測輿情的趨勢方向拓展。常用的思路與方法是:預設時間窗口,獲取主題信息數量,內容敏感程度,負面傾向性評價數量比例,傳播范圍等基本特征與指標。計算歷史窗口下的信息增長率、增長梯度等變化程度,評估輿情信息的數據變化趨勢并制定預警級別。進而,以數據挖掘為核心技術,應用不同的數據模型方法,比如傳統(tǒng)的多元回歸、貝葉斯網絡、決策樹、支撐向量機等預測輿情發(fā)展趨勢。如果大于某閾值或符合預定模式,認為需要預警,即從海量網絡數據中預判出潛在的危機隱患。
參考文獻
[1] 王鐵套,王國營,陳越. 基于模糊綜合評價法的網絡輿情預警模型[J]. 情報雜志,2012, 31(6):47-51.
[2] IRI網絡口碑研究咨詢機構介紹及研究方法[EB/OL]. http:///wiki/網絡輿情指數體系.
[3] 李雯靜,許鑫,陳正權. 網絡輿情指標體系設計與分析[J]. 情報科學,2009 (7):986-991.
[4] 黃仁,張衛(wèi). 基于word2vec的互聯(lián)網商品評論情感傾向研究[J]. 計算機科學,2016(6):387-389.
關鍵詞:網絡輿情 網絡輿情分析與監(jiān)測
當前,網絡已成為反映社會輿情的重要途徑。網絡輿情已滲透到社會的各個層面,成為了一股強大的、不容忽視的輿論力量。因此,如何識別和分析網絡輿情信息,如何對輿情進行監(jiān)測和有效引導,對于維護當今社會的穩(wěn)定和發(fā)展具有重要的現實意義。
1 我國網絡輿情現狀
由于當前我國正處于社會變革和轉型的關鍵時期,各種社會矛盾日益凸現,各種社會問題日益受到人們的關注,越來越多的人們愿意通過各類信息渠道表達自己的個人觀點和想法。隨著移動互聯(lián)時代到來,借助移動終端和各種網絡互動軟件,人們可以隨時隨地的發(fā)表觀點,報道事件,尤其在突發(fā)公共事件中,任何一個人都可以對事件進行現場報道,社會輿論的生成機制發(fā)生了深刻的變革。
當前我國網絡輿論場的強度,在世界居首。2011年,我國網絡輿論力度驟然增強,上網發(fā)聲的階層越來越廣泛,網民高度警覺和關注著現實社會的各種熱點事件。特別是“7?23”動車追尾事故和郭美美事件等敏感事件,造成網上網下人聲鼎沸,成為當時最大的網絡熱點。
因此,在當前復雜的社會環(huán)境下,加強輿情信息工作,及時掌握輿情動態(tài),積極引導社會輿論,是維護社會穩(wěn)定和安全的重要舉措。而研究和分析網絡輿情信息,明確輿情信息的來源是前提和基礎。目前,微博、微信、即時通訊軟件、博客、跟帖與網絡留言、網絡社群和網絡社區(qū)等是傳播網絡輿情信息的最主要途徑。
2 網絡輿情信息主要包含的內容
2.1 重大事件。所有的重大事件的發(fā)生都會在很短的時間內迅速在網絡上傳播開來,與事件發(fā)生有關的各個報道,新聞,各方面的消息和熱點都會在各個網站上鋪天而來,在短時間內就會出現大量的評論,跟貼和發(fā)帖等等。
2.2 突發(fā)事件。量變到質變的過程是突發(fā)事件產生的一個重要階段,例如“日本大地震后我國的搶鹽事件”,在發(fā)生初期,并沒有引起太多人的關注,只是在民間出現了許多的“謠言”,但其迅速擴散,就會影響到廣大群眾,并有可能造成整個社會的恐慌。
2.3 國家的經濟工作和重點工作。網絡上的主流的意識形態(tài)還是需要各個新聞媒體來傳播,需要政府和組織來引導,繼而形成被大眾所接受的健康向上的主流輿論,政府部門要引導人民群眾,最大限度地在廣大人民群眾中形成共識,來統(tǒng)一不同領域,不同階級中的意識和信念,形成了社會的主流言論。
2.4 一些關系國際民生的重大政策的改革更容易引起人們的廣泛關注,形成網絡輿情熱點事件。
2.5 和大多數人民自身利益密切相關的事件。因為輿情的一個重要作用就是人民群眾對自身利益的訴求表達的一個重要渠道。在群眾利益受到傷害時,他自然需要一個平臺來尋求幫助和進行訴求,網絡就是這樣一個很好的輿情平臺。
3 網絡輿情監(jiān)測系統(tǒng)的設計
網絡輿情監(jiān)測系統(tǒng)包含三個層次,自下而上分別為信息采集層、信息挖掘層、信息服務層。每一層為其上一層提供基礎數據,以及為進一步分析奠定基礎。其系統(tǒng)結構如下圖所示:
■
網絡輿情監(jiān)測系統(tǒng)結構圖
3.1 輿情信息采集層。信息采集層的基本任務是從數據格式多種多樣的網頁中采集出其蘊含的豐富的、各種各樣的輿情信息。采集層的最下層為信息采集的目標網站,如新浪、網易、搜狐、新華網、人民網、鳳凰網、貓撲、天涯社區(qū)等;中間層包含爬蟲管理模塊、預處理模塊、分類存儲模塊,爬蟲管理模塊主要采用網絡爬蟲技術獲取互聯(lián)網上的輿情信息;最上層將采集的文本信息分為Web內容信息、Web結構和使用記錄信息兩部分內容。
3.2 輿情信息挖掘層。開展輿情信息深度挖掘,發(fā)現的熱點問題、分析其態(tài)度傾向、處置構成危害的敏感信息是互聯(lián)網輿情信息挖掘層的主要任務。它通過分析輿情信息采集層提供的數據,能夠檢測網絡話題、分析民眾的態(tài)度傾向、監(jiān)測網絡敏感信息、評估輿情態(tài)勢等,為輿情信息服務層服務相關部門提供客觀依據,是輿情信息處理的核心內容。主要包含文本信息預處理模塊、網絡話題檢測模塊、輿情傾向性分析模塊、敏感信息監(jiān)控模塊。
3.3 輿情信息服務層。輿情信息服務層是輿情信息挖掘的目標,其輔助相關部門把握輿情動態(tài)、關注民情民意、做出正確決策。它一方面提供輿情信息摘要,為相關部門快速了解輿情動態(tài)、掌握輿情事件的來龍去脈提供便利,提高工作效率;另一方面綜合考慮話題熱度、傳播擴散度、態(tài)度傾向程度、內容敏感度、者影響力等輿情評價指標,并做出輿情評測、適時輿情預警信號,為相關部門及時做出反應提供幫助。
參考文獻:
[1]王磊.公安網絡輿情分析系統(tǒng)的研究[D].北京交通大學,2008(06).
關鍵詞:網絡輿情;監(jiān)測引導;Web數據挖掘
中圖分類號:C93 文獻標志碼:A 文章編號:1673—291X(2012)28—0227—03
一、時代背景
互聯(lián)網時代是人類歷史上一個空前偉大的技術革命時代。現代信息技術、通訊傳播技術、網絡技術等眾多現代化的傳播技術已滲透到社會生活的各個領域?;ヂ?lián)網廣泛性、即時性、開放性、共享性和互動性的特點及豐富多彩、方便實用的應用形式決定其日益成為反映社情民意的重要陣地,網上熱點層出不窮,網絡輿情對國家事務、公共事務決策的影響力也日益加大。歷史原因曾使中國長期處于封閉狀態(tài),國內關于輿情的研究起步較晚,目前迫切需要提升與之相應的理論和技術支持。輿情分析與監(jiān)測是信息深加工,以往“剪報”式低價值粗加工的信息服務,雖可按主題范圍搜集,但提供的結果僅局限于單一的信息內容,傳統(tǒng)的單一線性收集方式已不能夠滿足人類大腦發(fā)散思維的需要。
二、網絡輿情監(jiān)測引導的技術支撐
在浩瀚的網絡中,政府如果僅僅依靠人工完成網絡海量信息的收集和處理是不現實的。而Web數據挖掘能快速、準確的獲得有價值的網絡信息,利用歷史數據預測未來的行為以及從海量數據中發(fā)現知識。它克服了普通數據庫管理系統(tǒng)無法發(fā)現數據中隱藏的關系和規(guī)則及根據現有數據預測未來的弱點。Web數據挖掘的出現為自動和智能的把互聯(lián)網上的海量數據轉化為有用信息和知識提供了條件??捎行У貜腤eb獲取并分析相關輿情,達到監(jiān)測、輔助決策和引導的目的,為網絡輿情預警提供了極大的幫助。
(一)Web數據挖掘
Web數據挖掘由傳統(tǒng)數據庫領域的數據挖掘技術演變而來。數據挖掘是指從大型數據庫的數據中提取出人們感興趣的、可信的、隱含的、明顯未知的、新穎的、有效的、具有潛在用處的信息的過程[1]。隨著互聯(lián)網的蓬勃發(fā)展,數據挖掘技術被運用到網絡上,并根據網絡信息的特點發(fā)展出新的理論與方法,演變成網絡數據挖掘技術。Web數據挖掘是指對目標樣本進行分析提取特征,以此為依據從Web文檔和Web活動中抽取人們感興趣、潛在的有用模式和隱藏的信息,所挖掘出的知識能夠用于信息管理、查詢處理、決策支持、過程控制等方面。
根據挖掘對象的不同,可將Web數據挖掘技術分為三大類[2]:Web內容挖掘、Web結構挖掘和Web使用挖掘。Web內容挖掘是指從Web上檢索資源,從相關文件內容及描述信息中獲取有價值的潛在信息。根據處理對象的不同,Web內容挖掘分為文本挖掘和多媒體挖掘。Web結構挖掘的目標是Web文檔的鏈接結構,目的在于揭示蘊含于文檔結構中的信息,主要方法是通過對Web站點的結構進行分析、變形和歸納,將Web頁面進行分類,以利于信息的搜索。結構挖掘的重點在于鏈接信息。Web使用挖掘是從服務器訪問日志、用戶策略、用戶對話和事物處理信息中得到用戶的訪問模式和感興趣的信息,利用這種方法,可以獲知Web使用者的行為偏好,從而預測其行為。
(二)Web挖掘過程
Web數據挖掘依然遵循數據挖掘的研究思路,挖掘過程分為四個階段:數據收集、數據預處理、模式發(fā)現和模式分析(如圖1所示)[3]。
1.數據收集。網絡信息的收集是網絡輿情監(jiān)測的源頭,其廣度和深度決定了監(jiān)測效果。對于明確主題的輿情信息采集,可以采用搜索引擎方法。由于各個現存搜索引擎索引數據庫的構造方法不同,其索引數據不盡完整,所以應將多個單搜索引擎搜索結果進行整合、調用、控制和優(yōu)化。搜索中可以以寬度優(yōu)先、深度優(yōu)先或啟發(fā)方式循環(huán)地在互聯(lián)網中發(fā)現相關信息,可將網絡空間按域名、IP地址或國別域名劃分為獨立子空間詳細搜索;或以信息類型為劃分,如HTML格式、XML格式、FTP文件、Word文檔、newsgroup文章和各種音、視頻文件等。輿情信息檢索結果可按不同維度展現,包括按內容分類、輿情分類、相關人物、相關機構、相關地區(qū)、正負面分類等。每個維度下把搜索結果自動分類統(tǒng)計展示,以便短時間內檢索到精確信息。
2.數據預處理。因原始Web訪問數據的文件格式是半結構化的,包含不完整、冗余、錯誤的數據,需進行提取、分解、合并,轉化為適合挖掘的格式,保存到關系型數據庫表或數據倉庫中,等待進一步處理。數據預處理可改進數據質量,提高后續(xù)輿情挖掘過程的精度和性能。對采集到的輿情進行初步加工處理,如格式轉換、數據清理、數據統(tǒng)計,對于新聞評論,需過濾無關信息,保存新聞標題、出處、時間、內容、點擊次數、評論人、評論內容和評論數量等。對于論壇,需記錄帖子的標題、發(fā)言人、時間、內容、回帖內容、回帖數量等,最后形成格式化信息。條件允許時甚至可直接對網站服務器的數據庫進行操作。
3.模式發(fā)現。利用數據挖掘的算法可發(fā)現用戶聚類、頁面聚類、頻繁訪問頁組、頻繁訪問路徑等隱藏的用戶訪問模式。若在挖掘用戶瀏覽模式過程中發(fā)現選擇的數據或屬性有偏差,或挖掘技術達不到預期結果,需根據反饋結果不斷重復以上過程,通過數據挖掘,創(chuàng)建和更新用戶模式庫。模式發(fā)現可應用許多相關領域的方法,但需針對Web數據挖掘的特點做出相應的改進。
關鍵詞:高校BBS;網絡輿情;監(jiān)測;熱點分析
中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2013)16-3688-04
1 概述
隨著互聯(lián)網的普及和高校信息化的建設,各大高校都擁有自己的BBS網絡,學生在網絡上進行交流,發(fā)表自己的觀點和意見,表達思想等,輿情的影響和規(guī)律都不容忽視。然而,對敏感和突發(fā)事件的不實言論和惡意煽動,會誤導和欺騙學生,擴大學生的不滿情緒,影響和破壞校園的和諧穩(wěn)定。因此,有必要對高校BBS網絡涉及意識形態(tài)安全的議題和言論進行有效地監(jiān)管。采用數據挖掘技術,對互聯(lián)網輿情進行分析、整理,才能建立起全面、有效、快速的輿情監(jiān)測預警機制,使高校網絡得以健康、快速的發(fā)展,成為當前研究和應用的熱點。
在目前的校園網絡輿情監(jiān)測應用中,還沒有比較成熟的網絡輿情產品,因此,針對高校BBS網絡的特點,結合高校網絡輿情監(jiān)控機制和引導策略,開發(fā)高校網絡輿情監(jiān)測平臺有很大的現實意義和應用價值。
2 輿情熱點分析方法
2.1網絡輿情的形成
2.2主題關注度分析
主題關注度是指過去某一時間段內,輿情主題被關注的程度,用該主題的相關帖子回復數或與該主題的相關網頁數進行衡量[1]。在進行輿情分析時,要統(tǒng)計某一主題或事件被關注的程度,首先要明確事件或話題本身所處的階段;其次,應該在分析某一輿情熱點之前對其進行科學的類型界定。熱點事件主要分為突發(fā)自然災害事件、生產安全事故、、公共衛(wèi)生事件、公權力形象、司法事件、經濟民生事件、社會思潮、境外涉華突發(fā)事件等。
2.3 主題熱度分析
主題熱度分析即在某一時同段內相對更加被關注或集中關注的輿情主題,用該主題的關注度進行衡量。統(tǒng)計所有輿情主題的關注度,在某一時間段內,對所有設為熱點的主題按關注度的降序進行排列,生成某一時間段內的熱點主題排行榜。排在榜首的主題網民的關注度最高,也就是熱點問題所在。
3 網絡輿情監(jiān)測關鍵技術
網絡輿情監(jiān)測技術主要集中在兩個方面,一是話題檢測與跟蹤技術(Topic Detection and Tracking),二是文體傾向性分析技術(Sentiment Classification)技術。主題檢測與跟蹤作為輿情分析的重要技術手段,是近十年自然語言處理和信息檢索領域的熱點研究課題[2]。要對高校網絡輿情進行監(jiān)測,就是運用網絡爬蟲、文本挖掘和文本情感分析技術,實現熱點話題發(fā)現、話題跟蹤、關聯(lián)分析、敏感信息監(jiān)測的功能。
3.1 主題爬蟲技術
3.1.1網絡爬蟲的分類
網絡爬蟲也叫網絡蜘蛛,是一個按照一定的規(guī)則自動提取網頁的程序,這種技術可以檢查站點上所有的鏈接是否有效,并把相關的數據保存下來,成為搜索引擎[3]。
通用網絡爬蟲首先把網絡上的HTML文檔使用超鏈接連接起來,就像織了一張網,爬蟲程序從一個或若干初始網頁的URL開始,獲得初始網頁上的URL列表,順著這張網,不斷的抓取網頁,將內容抽取出來,直到滿足系統(tǒng)的停止條件為止。
聚焦爬蟲技術是根據一定的網頁分析算法地過濾與主題無關的鏈接,保留有用的鏈接放到待抓取的隊列中,通過一定的搜索策略從隊列中選擇下一步要抓取的URL,重復以上步驟,直到滿足程序的停止條件。
3.1.2爬行算法
基于主題的聚焦爬蟲搜索策略主要有人工預選策略、過濾策略、啟發(fā)式搜索策略。人工預選策略是由人工預先瀏覽各個站點,從中選出與主題相關的網站,然后再用爬蟲程序對這類網站進行持續(xù)的訪問;過濾策略是將爬蟲抓取下來的網頁,先進行過濾,刪除與主題不相關的頁面,保留相關頁面;啟發(fā)式策略是考慮特定問題可應用的知識地優(yōu)先選擇合適的操作算子,盡量減少不必要的搜索,以搜索效率。下面介紹比較有代表性的算法Fish Search算法。
Fish Search算法是模擬自然界中的魚群的行為來進行最優(yōu)搜索,依據自然規(guī)律,魚群總是朝一個方向流動來尋找食物并繁殖,子代魚群的數量和強壯程度取決于能找到的食物的數量。在Fish Search算法中,每一個URL看作是一條魚,當一個Web頁面被抓取后,它包含的新的UEL也同時被解析出來。其中,有用的URL的數量取決于該頁面是否與主題相關以及它本身包含的鏈接數量。當增加一個文檔,魚就繁殖一定數量的后代,若文檔相關也就是指魚兒找到了食物,可以繁殖出更多的后代,則再增加此文的鏈接深度;若文檔不相關,魚就越來越少,后代也越少。在某一方向上經過幾條鏈接仍未找到相關文檔,就表明此魚已死,就不再沿著這個方向進行查找了,將此URL加入到完成隊列中。若一條魚讀取文檔的時間過長,說明該魚已進入污染區(qū),則盡量少沿著這條URL搜索,以免出現死循環(huán)。
Fish Search算法不像傳統(tǒng)的搜索算法按照URL在父頁面中出現的順序來依次搜索,而是動態(tài)的根據網頁的搜索深度值來決定搜索的順序,實現了可能的主題相關網頁優(yōu)先搜索。該算法的不足之處在于相關度的計算過于簡單,容易使算法過早陷入局部最優(yōu)的陷阱,導致整體回報率不高[4]。
3.2 文本挖掘技術
3.2.1文本表示
文本表示包括兩個方面的問題:文本的表示和計算,文本的表示是指文本特征的提取,計算指權重的定義和語義相似度的定義。
目前,文本的表示通常采用布爾模型、向量空間模型、潛在語義模型和概率模型文本表示模型,用某種特定結構去表達文本的語義。
3.2.2文本相似度計算
3.2.3文本聚類和分類
文本聚類通常對已有的文本集合進行聚類,文本聚類技術是主題檢測技術的基礎,它的目標是將文檔集合分成若干個簇,要求同一簇內文檔內容的相似度盡可能的大,而不同簇之間的相似度則盡可能的小。
經過多年研究,聚類算法已經很成熟,主要可分為五類:以k-means為代表的劃分方法,利用同一聚類中的對象相似度高,不同類的對象相似度低的特性進行分類;將類別看作是在層次的層次聚類方法,有兩種分類方法:整合法和分裂法;主要考慮數據空間的密度、連通性和邊界區(qū)的基于密度的方法;將數據的分割方法轉換成對空間的分割的基于網絡的算法;在高維空間進行聚類的核聚類算法等。
不管采用哪一種聚類算法,文本聚類的流程如圖2所示,主要有以下步驟:
①將原始文本進行預處理,抽取詞條,詞條選擇等其他處理;
②抽取文本特征,建立模型,例如向量空間模型、概率模型等其他模型;
③將維度進行約減,需要用到的算法有層次算法、劃分算法等其他算法;
④得到聚類結果。
3.2.4 關鍵詞和摘要提取
由于網絡上的文檔信息量比較龐大,如果直接對全文進行檢索,其檢索的速度會很慢,而且檢索的效率不高,經常檢索出無關的內容。因此為了提高檢索質量和效率,必須對文檔建立關鍵詞和摘要。關于關鍵詞自動提取的方法主要有主要包括基于統(tǒng)計、基于語義理解和基于機器學習三種方式。
關鍵詞的抽取過程非常復雜,設計思路是首先建立一個通用的主題詞表,然后基于這個主題表對處理后的頁面文檔進行主題詞的抽取工作,主題詞的抽取過程主要包括預處理、選擇候選詞、計算關鍵詞權重、輸出關鍵詞等幾個主要步驟。
4 實驗結果
5 結束語
本文立足于高校網絡輿情監(jiān)測的實際需求,研究了高校輿情監(jiān)控系統(tǒng)的關鍵技術:網絡爬蟲、文本挖掘等多種信息技術。在多種技術的支撐下,開發(fā)出一套適用于高校BBS網絡的輿情監(jiān)測平臺,實現了對新聞的實時跟蹤,校園熱點話題的監(jiān)控、敏感信息的監(jiān)測等功能是可以是實現的,這項研究還需要進一步深入。
參考文獻:
[1] 林興發(fā),肖照.基于大學生BBS論壇的輿情熱點分析——以武漢大學珞珈山水論壇為例[J].現代商貿工業(yè). 2010(18):188-189.
[2] Pimwadee Chaovalit,Lina Zhou,Movie Review Mining:a Comparison between Supervised and Unsupervised Classification Approaches,In Proceedings of the 38th Hawaii International Conference on System Sciences,2005.
[3] PINKERTON B.Finding what people want:Experiences with theweb crawler[A].Proceedings of the SecondWorld2WideWeb conference[C].Chicago,Illinois,1994.