聚類 文字分類 傾向性分析

2021-06-15 04:22:48 字數 1316 閱讀 4144

最近專案和話題檢測、傾向性分析相關,涉及到聚類、文字分類、文字傾向性分析技術,決定形成系統說明並將**開放出來,作為記錄。

資料的話,由於和實驗室專案相關,不好開放出來,可以使用搜狗的語料庫(

聚類流程:

1、文字預處理,包括分詞、去停用詞、統計詞頻等(如果是英文文字的話,還有詞幹還原,如porter演算法)

3、文字表示,一般可以使用向量空間模型(vsm),具體的特徵值,按需要計算,比如tf-idf等

4、由於聚類是乙個無監督的方法,就沒有訓練過程了,直接使用聚類演算法進行聚類,比如kmeans

5、聚類結果評價,常見的如:purity,ri.f值

分類流程:

1、文字預處理,參見聚類流程

2、特徵選擇,參見聚類流程

3、文字表示,參見聚類流程

4、分類一般都使用有監督的方法,故基本都有訓練過程,knn演算法沒有訓練過程,但還是需要標註樣本 常用的幾種方法:knn,貝葉斯,svm,決策樹,神經網路。由於神經網路用的比較少,決策樹不太適應大規模資料,就只對前三種演算法做說明。

5、使用訓練後的模型或標註樣本(knn)進行分類

6、分類結果評價,常見的如:precision、recall、f值

傾向性分析:

傾向性分析一般有兩種型別的方法,一是基於情感詞典,一是基於文字分類,或者是將情感詞典和文字分類結合起來,以情感詞作為特徵,使用文字分類的方法。分類在上述已經有說明,這裡主要對基於情感詞典的方式進行說明。

1、構建詞典,目前在實際使用中,可以將其歸為四類:通用情感詞(s)、程度副詞(l)、否定詞(n)、領域詞(s)。通用情感詞,就是一些比較常見的帶情感的詞如喜歡、討厭;程度副詞,就是一些表示程度的詞如很、最、更,可對同程度的詞賦權值;否定詞,如不、不是,單獨列出來是因為這些詞和情感詞連用時會表現出相反的情感;領域詞,就是資料所涉及到的領域,比如新聞的話,要分析傾向性就比較難,基本不會有通用的情感詞出現,這時候就需要提取一些領域相關的詞,這些詞可能是情感詞也可能不是,比如酒店評價的話:向陽、潮濕等

2、構建傾向性計算模型。可以使用以句子為單位計算傾向性得分,進而計算篇章得分的方式來判斷文章傾向性。

3、確定閾值來判斷傾向性。一般情況下,我們認為得分為正的為正面傾向、得分為負的為負面傾向、得分為0是無傾向。但是並不是所有無觀點的文章計算出來的得分都為0,有可能是接近0的值。故可以設定乙個閾值,使得得分|score| - ε < 0的文章判定為無傾向。

4、結果評價,可以採用通用的precision、recall、f值的方式

各個模組:

特徵選擇之資訊增益

文字傾向性分析綜述

2008 10 13 20 50 最近看了兩篇關於文字傾向性分析的碩士學位 金曉鷗 2008 網際網路輿情資訊獲取與分析研究.上海,上海交通大學.肖偉 2007 基於語義的blog社群文字傾向性分析.上海,上海交通大學.總結了一下 1.文字傾向性分析的定義和主要任務 tetsuya nasukawa...

情感傾向性分析訓練 在輿情系統中的應用

1.情感分析 詞庫搭建 通過對大量中文文字及人物會話分析,發現文字情感的判定基本上通過對通篇的情感詞 程度副詞及否定詞的統計分布來判別,因此,我們搭建了基於情感分析的情感詞庫以及其它輔助詞表。如下圖所示。圖1 詞典集結構關係圖 其中,正 負面情感詞通過預先標註的新聞資料中通過統計獲得,再人工過濾 程...

網路資訊檢索(九)文字分類與文字聚類

二 文字分類 三 文字聚類 文字分類的定義 color textbf 文字分類的定義 文字分類在資訊檢索中的應用 color textbf 文字分類在資訊檢索中的應用 新聞分類 color textbf 新聞分類 情感分類 color textbf 情感分類 情感分析 自動對觀點的極性進行分類 正面...