之前在實習時,teamleader想利用情感分析實現「公司績效考核」問題,即從boss對員工的評語中判斷該員工該月的績效值,屬情感分析領域。
當時使用最簡單的基於情感詞典的方法解決,借鑑了這篇文章,在此基礎上對其進行修改,先講思路描述如下。
注:情感詞典內包含詞語以及對應的情感值;停用詞典只包含停用詞語;否定詞典只包含否定詞語;程度副詞詞典內包含詞語及對應的程度值。
整體步驟如下:
分詞(jieba),去停用詞;
構建詞語序列;
對詞語序列結果分類,找出情感詞、否定詞、程度副詞;
計算得分。
其中計算得分的具體步驟如下:
找出所有情感詞的下標,構建新片語;
新片語構建方法:該情感詞與前一情感詞之間的否定詞及程度副詞 + 該情感詞(第乙個情感詞前至句首);
計算:程度副詞的程度值 × 情感詞的情感值,每有乙個否定詞,使該式 × -1;
句子累加。
缺點:沒有考慮詞義,特別對於「標題黨」來講,結果差距巨大。但這種情況都需要使用深度學習的方法才能有效解決,普通機器學習方法也是很難的。
對於正負向文字的判斷,該演算法忽略了很多其他的否定詞、程度副詞和情感詞搭配的情況;用於判斷情感強弱也過於簡單。
實體詞典 情感詞典 基於詞典的情感分析 簡單例項
import re import jieba pip install jieba 0.39 class dictbasedsentanal def init self self.root dir dict self.sent dict self.read dict self.root dir bos...
基於情感詞典的情感打分
原理我就不講了,請移步下面這篇 包括情感詞典的構建 各位讀者可以根據自己的需求稍作簡化 以及打分策略 程式對原 稍有改動 本文採用的方法如下 首先對單條微博進行文字預處理,並以標點符號為分割標誌,將單條微博分割為n個句子,提取每個句子中的情感詞 以下兩步的處理均以分句為處理單位。第二步在情感詞表中尋...
情感分析 詞典建立
詞典包括情感詞典 程度詞典 否定詞典和連詞詞典,其中情感詞典最為重要,程度詞典和否定詞典用於識別修飾情感詞語的成分,連詞詞典用於識別句際關係 以情感詞彙本體為主要資源,結合 情感分析用中文詞集 中文褒貶義詞典 和學生褒貶義詞,經過整合 去重 轉換和補充得到含有 個詞語的情感詞典,每個詞語標註詞性 極...