前面進行了微博資料的抓取,簡單的處理,相似度分析,後面兩篇進行學校微博的情感分析。
這裡試圖通過字典分析的方式計算學校微博的情感傾向,主要分為積極情感,消極情感,客觀。
這裡字典分析的情感分析和機器學習方式進**感分析均參考rzcoding的部落格,這裡只是根據他的思路和**改裝成了微博的情感分析。字典分析的原理是,給定一句微博,判斷這句微博中是否出現過積極或者消極的情感詞,如果出現,那麼尋找修飾該情感詞的程度副詞,然後依據定義的規則計算積極和消極情感分值。
使用了matplotlib模組進行結果的顯示。
圖表示字典分析dlut(大連理工大學)的乙個使用者的情感分析結果,其中紅色表示積極的值(依次為總值,均值,方差),綠色表示消極的值(依次為總值,均值,方差)
字典分析所有學校的結果。
學校名稱
積極的微博
消極的微博
客觀的微博
大連理工大學
32.7%
25.5%
41.8%
清華大學
32.8%
23.6%
43.7%
北京大學
33.9%
24.0%
42.1%
南京大學
31.2%
25.6%
43.3%
華東政法大學
32.4%
29.0%
38.6%
從上表可以看出,乙個學校所發的微博積極的微博數目較大於消極的微博數目,積極的微博比例一般在32%左右,而消極的微博一般在24%左右。忽略掉客觀的微博,那麼積極的微博和消極微博數目比例大體在1:1的水平上。
利用機器學習的方法對微博進**感分析,即使用相關監督的學習演算法,如貝葉斯演算法,使用標註的情感文字進行學習,訓練得到分類器,最後使用該分類器進**感分類並進行圖形化顯示。
具體步驟為:首先手工標註微博,以積極,消極和客觀三種狀態來標識。接著,使用所有詞,雙詞和卡方統計等方式獲取詞的特徵,然後,使用多種機器學習模型進行訓練,篩選得到最佳精度的分類器,最後,使用該分類器進行微博的情感分類,如:如果積極的情感概率則為積極微博。
機器學習分析所有學校的結果。
學校名稱
積極的微博
消極的微博
客觀的微博
大連理工大學
12.6%
28.4%
59.0%
清華大學
8.7%
20.3%
70.9%
北京大學
8.5%
19.0%
72.6%
南京大學
9.8%
23.6%
66.6%
華東政法大學
11.9%
30.6%
57.4%
這裡的結果與用詞典分析的結果不太一樣,在詞典分析中,使用者發的積極的微博數目大於消極的微博數目,而這裡,五所大學中,所有的學校所發的積極的微博比例均小於消極的微博,積極微博大概佔到10%左右,消極的微博約佔到22%左右,客觀的微博佔到65%左右。除去客觀的微博,積極微博和消極的微博的比例大體相當於1:2。實驗中分類器的準確度達到70%。
影響實驗結果的因素:其一,該結果是基於分類器得出的結果,而分類器又是基於標註的微博資料,所以,自己標註的微博資料會對分類器的判定有著一定的影響;其二,由於中文語義豐富,在不同的語境下有著不同的含義,這樣會導致分類器的判別有一定的難度從而造成相關的誤差。
本次畢設研究的主題為分析和了解不同的群體在社交網路上是如何表達情緒的及其表達情緒的傾向。為此,本研究設計並實施了一整套從資料抓取到分析的流程,設計了爬蟲去抓取資料,設計了相應的演算法去分析和統計和處理資料。最終,本研究做到了在一定層面上展現了社交網路用資料的特性,不同群體用詞的差異性,也給出了在社交網路上不同的群體是如何表達情緒及其傾向這一問題的解答。
最大的社交網路支援點讚以外的情緒,你還習慣麼
如今,將這個點讚按鈕帶入網際網路世界的公司 facebook 決定給使用者更多表達的選擇。在原有的點讚按鈕處,使用者長按住之後可以在六個不同的動畫表情中選擇更具體的情緒。最大的社交網路支援點讚以外的情緒,你還習慣麼?2010 年,facebook 上線 like 按鈕,在此之前鮮有哪個網際網路服務只...
「網路讀」改為「網路寫 本地讀」的優化分析
由於網遊經常採用寫時把資料實時更新到本地服,讀時直接讀本地服的資料,所以產生乙個疑問。這種方案是否真能優化,達到什麼樣的條件會優化?為此,特做以下 寫方案沒有所謂的優化,不做 原始版讀方案的流程 getapi getapi net 優化版讀方案的流程 getapi setapi net getapi...
別說我懂社交網路 關於社交網路分析的一頭霧水
社交網路,對每個人是熟悉而又陌生的。每個人都可以說出個一二三,因為人是社會的動物,每個人都有自己的社交圈子即社交網路。然而,就社交網路的應用開發尤其是移動網際網路社交應用而言,儘管創業團隊不停地湧現,或曇花一現,或筍未成竹便已老去,如霧裡看花。我自創業至今做了幾款社交應用,甚至申請生成了多個專利 專...