通用情感詞典的構建主要是通過將目前開源的情感詞典整合起來,篩去重複和無用的單詞。
目前網上開源的情感詞典包含有:知網(hownet)情感詞典、台灣大學(ntsusd)簡體中文情感極性詞典、大連理工大學情感詞彙本體。
前兩個都可以在網上找到,第三個需要到其學校官網申請,說明完用途即可獲得。
上述情感詞典年代都已經比較久遠,所以我們可以採取一定方法對其擴充套件。這裡我們採用的方法是將詞典的同義詞新增到詞典裡。
我們通過使用哈工大整理的同義詞詞林來獲取詞典的同義詞,需要一提的是第一版的同義詞林年代較為久遠,現在也有哈工大整理的同義詞林擴充套件版。
使用的鏈結在這裡:哈工大同義詞林擴充套件版
使用**編寫時也可以利用python的synonyms庫來獲取同義詞。
其已經開源,鏈結為:synonyms
如:
import synonyms
print("人臉: %s" % (synonyms.nearby("人臉")))
print("識別: %s" % (synonyms.nearby("識別")))
構建特定領域的情感詞典需要利用pmi互資訊計算與左右熵來發現所需要的新詞。具體方法我們可以新增情感種子詞,來計算分好詞的語料中各個詞語與情感種子詞的互資訊度與左右熵,再將互資訊度與左右熵結合起來,選擇出與情感詞關聯度最高的topn個詞語,將其新增到對應的情感詞典。
這裡可以參考鏈結link
具體例子:4g, 上網絡卡,4g上網絡卡;如果4g的詞頻是2,上網絡卡的詞頻是10,4g上網絡卡的詞頻是1,那麼記單單詞的總數有n個,雙單詞的總數有m個,則有下面的公式
我們這裡使用左右熵來衡量主要是想表示預選詞的自由程度(4g上網絡卡為乙個預選詞),左右熵越大,表示這個詞的左邊右邊的詞換的越多,那麼它就很有可能是乙個單獨的詞。
我們這裡的左右熵定義為(以左熵為例):
這裡我們還是舉乙個具體的例子來理解它
假設4g上網絡卡左右有這麼幾種搭配
[買4g上網絡卡, 有4g上網絡卡,有4g上網絡卡, 丟4g上網絡卡]
那麼4g上網絡卡的左熵為
這裡a = [買, 有, 丟]
後面就是具體的實現了,這裡的難點就在如何獲得這些概率值,就博主看到的用法有:利用搜尋引擎獲取詞彙共現率即p(x,y)、利用語料庫獲取各個詞出現概率
情感極性 關於中文情感分類的知識
文字分類,就是在預定義的分類體系下,根據文字的特徵 內容或屬性 將給定文字與乙個或多個類別相關聯的過程。1 構建分類類別體系 2 獲取帶有類別標籤的文字 3 文字的特徵選擇及權重計算 4 分類器的選擇與訓練 5 文字的分類應用 對應每乙個類別,都可以訓練出對應的詞特徵檔案。對應到類別的細分或者合併,...
中文情感分析語料庫
中文情感分析語料庫 中文情感分析的語料庫非常少,這五個中文語料庫是我在網上的蒐集的。url 資料集2 2012年ccf自然語言處理與中文計算會議 中文微博情感分析測評資料 url 條微博,共約 20000 條微博。資料採用xml格式,已經預先切分好句子。每條句子的所有標註資訊都包含在元素的屬性中。其...
中文情感分析語料庫
原文 中文情感分析的語料庫非常少,這五個中文語料庫是我在網上的蒐集的。url 資料集2 2012年ccf自然語言處理與中文計算會議 中文微博情感分析測評資料 url 條微博,共約 20000 條微博。資料採用xml格式,已經預先切分好句子。每條句子的所有標註資訊都包含在元素的屬性中。其中opinio...