使用者評論實體識別及情感分類

2021-08-03 13:05:15 字數 770 閱讀 5580

實體識別方法:

1.傳統常見方法:crf,hmm

2.深度學習方法:rnn下的lstm

3.規則匹配:基於詞典

1,2兩種方法都是序列標註問題,

eg"寶馬的座椅比帕薩特更舒服",標註"寶(b)馬(e)"

"寶馬座椅比帕薩特更舒服",標註"寶(b)馬(m)座(m)椅(e)"

情感分類:

1.常見分類器,如svm,lr,maxent,gbdt等

2.規則匹配:基於情感詞典

結合實體識別的情感分類方法:

1.先做實體識別,然後針對實體進**感分類

eg."寶馬的座椅比帕薩特更舒服",提取出"寶馬 座椅 pos","帕薩特 座椅 neg"

2.實體識別當做序列標註的問題,對於方面級別的標註是個挑戰:

1)標註任務量大,需要指定實體在句子中的位置

2)細分到方面的實體不好標註,"寶馬座椅比帕薩特更舒服",標註"

寶(b)馬(m)......

座(m)椅(e)"

2.在標準資料集的基礎上進**感分類(一步到位):

eg.利用標準資料集訓練69個關於方面的分類器(多分類),分類的方面包括:正面,負面,中性,無提及

即當一條文字被分類到無提及這一類時候,則認定該方面沒有出現。

特點:1)理論上行之有效

2)需要大量的資料集防止樣本傾斜

3)大量資料結合大量分類器,訓練時間太長

3.利用規則匹配

4.利用規則匹配結合語義分析

5.利用規則匹配結合模型自動分類

中文手機評論情感分類系列(三)

class predictsentiment def init self self.stopword self.stopword path d 檔案 學習檔案 情感分析 dict詞典 哈工大stopword txt 停用詞路徑 with open self.stopword path,r encod...

BiLSTM介紹及中文命名實體識別應用

lstm 全稱long short term memory,是rnn recurrent neural network 的一種。lstm由於其設計的特點,非常適合用於對時序資料的建模,如文字資料。bilstm bi directional long short term memory的縮寫,是由前向...

微信語音識別及網頁獲取使用者資訊

更新內容 1 增加支援語音識別 語音識別其實是對voice資訊的乙個擴充套件,您必須啟用語音識別功能,啟用後會在voicemessage中增加乙個recongnition欄位,我們可以判斷這個欄位的內容進行響應。因為其實對voice的乙個擴充套件,此次更新在voicemessagerequest中加...