實體識別方法:
1.傳統常見方法:crf,hmm
2.深度學習方法:rnn下的lstm
3.規則匹配:基於詞典
1,2兩種方法都是序列標註問題,
eg"寶馬的座椅比帕薩特更舒服",標註"寶(b)馬(e)"
"寶馬座椅比帕薩特更舒服",標註"寶(b)馬(m)座(m)椅(e)"
情感分類:
1.常見分類器,如svm,lr,maxent,gbdt等
2.規則匹配:基於情感詞典
結合實體識別的情感分類方法:
1.先做實體識別,然後針對實體進**感分類
eg."寶馬的座椅比帕薩特更舒服",提取出"寶馬 座椅 pos","帕薩特 座椅 neg"
2.實體識別當做序列標註的問題,對於方面級別的標註是個挑戰:
1)標註任務量大,需要指定實體在句子中的位置
2)細分到方面的實體不好標註,"寶馬座椅比帕薩特更舒服",標註"
寶(b)馬(m)......
座(m)椅(e)"
2.在標準資料集的基礎上進**感分類(一步到位):
eg.利用標準資料集訓練69個關於方面的分類器(多分類),分類的方面包括:正面,負面,中性,無提及
即當一條文字被分類到無提及這一類時候,則認定該方面沒有出現。
特點:1)理論上行之有效
2)需要大量的資料集防止樣本傾斜
3)大量資料結合大量分類器,訓練時間太長
3.利用規則匹配
4.利用規則匹配結合語義分析
5.利用規則匹配結合模型自動分類
中文手機評論情感分類系列(三)
class predictsentiment def init self self.stopword self.stopword path d 檔案 學習檔案 情感分析 dict詞典 哈工大stopword txt 停用詞路徑 with open self.stopword path,r encod...
BiLSTM介紹及中文命名實體識別應用
lstm 全稱long short term memory,是rnn recurrent neural network 的一種。lstm由於其設計的特點,非常適合用於對時序資料的建模,如文字資料。bilstm bi directional long short term memory的縮寫,是由前向...
微信語音識別及網頁獲取使用者資訊
更新內容 1 增加支援語音識別 語音識別其實是對voice資訊的乙個擴充套件,您必須啟用語音識別功能,啟用後會在voicemessage中增加乙個recongnition欄位,我們可以判斷這個欄位的內容進行響應。因為其實對voice的乙個擴充套件,此次更新在voicemessagerequest中加...