文字分類,就是在預定義的分類體系下,根據文字的特徵(內容或屬性),將給定文字與乙個或多個類別相關聯的過程。
(1)構建分類類別體系
(2)獲取帶有類別標籤的文字
(3)文字的特徵選擇及權重計算
(4)分類器的選擇與訓練
(5)文字的分類應用
對應每乙個類別,都可以訓練出對應的詞特徵檔案。對應到類別的細分或者合併,只需要簡單的將詞特徵檔案按需要進行分拆或者合併,具有比較好的擴充套件性。
但實際上網際網路上存在非常多沒有標註的資料,這時候可以考慮無監督或者弱監督的方法,不過效果相比監督方法較差。這時候可以選擇人工進行標註,但這部分工作異常耗費人力。
(1)什麼是文字?
乙個文字表現為乙個由文字和標點符號組成的字串,由字或字元組成詞,由詞組成短語,進而形成句、段、節、章、篇的結構。
(2)為什麼要選擇特徵?
要進行文字分類,必須將文字轉化為計算機可以理解的形式,這種形式要能夠真實反映文字的內容並且具有將不同文件區分開的能力。
(3)什麼是特徵?
目前比較流行的方法是將文字表示為向量空間模型(vsm),如one-hot向量等。而特徵是vsm中最小的不可分的語言單元,可以使字、詞、片語或者短語等。乙個文字可以看成是它含有的特徵項所組成的集合,如進行分本分詞後產生的詞列表,關於分詞可以參考:**中文分詞與jieba原始碼
(4)怎麼選擇特徵?
在進行文字分詞後,會產生大量的詞,而很多詞如:「」我「」,「」的「」等對於類別不具有可分性,同時如果特徵數目太大,膨脹起來也會造成位數災難等困難,所以需要對特徵進行一定的選擇,下面列舉幾種特徵選擇方法,不做詳細介紹:
1)基於文件頻率的特徵提取
2)資訊增益法
3)卡方統計量
4)互資訊法
關於文字的表示,實際上不只是特徵的集合,而應該是特徵與該特徵的權重的某種組合。特徵的權重衡量了某個特徵在文字表示中的重要程度或區分能力的強弱。
下面同樣列舉幾種方法:
1)布林權重:這種方法形式成的文字表示一般稱為one-hot向量
3)基於錯誤驅動的方法
這裡說一說目前比較流行的word2vec,筆者不太確定這個方法是否歸於這個分類底下,但從字面意義理解上很相似。word2vec嚴格來說並不能算是一種權重計算方法,該方法的作者實際上是提出幾種訓練語言模型的方法,在訓練完畢後得到的副產品才是所謂的詞向量,但總體來說同樣起到了權重計算的方法。
前面將文字表示構建完畢,接下來就是分類器部分了。關於分類的內容比較多,這裡只是簡單列舉幾種方法,不做介紹:
傳統的統計學習方法:支援向量機、樸素貝葉斯、knn,或者深度學習方法:cnn、rnn等等
大部分處理過程與上述文字分類很相似,這裡不多介紹。
(1)基於詞典的方法
基於詞庫的方法的關鍵點在於極性詞庫的搭建,這裡可以尋找**的開源的極性詞典或者手工抽取標註,是乙個比較耗費人力的過程。
具體的方法可以簡化為,對文字進行分詞,之後對比極性詞庫,通過計算句子的正面得分,比如有多少詞是正面的,與負面得分,及兩者相加的綜合得分,設定閾值進行比較,得到該文字的情感極性。
(2)基於機器學習的方法
基本上的方法和文字分類很相似,但關於情感分類在特徵選擇從而進行分類上有一些不同的地方
1)特徵
情感分類中,有一種方法稱為全詞表法,即是將初步分詞去燥之後的所有詞都作為特徵,結合已標註文字進行模型訓練。這樣的好處是單詞能夠全面保留,但特徵維度較大。
另一種方法稱為極性詞表法,同文字特徵選擇,將用某種方法選擇出來的特徵儲存下來,經過人工審核後,納入極性詞表,作為文字特徵進行訓練,這裡和基於的詞典的方法有一部分工作是相同的。
2)分類
首先進行主客觀判斷,將客觀語料分為中性,之後再進行正負極性的判斷。這樣,就可以把乙個複雜的三分類問題,簡化成兩個二分類問題了。
1、《統計自然語言處理》 宗成慶
2、《情感分類研究進展》 陳龍
中文情感詞典的構建
通用情感詞典的構建主要是通過將目前開源的情感詞典整合起來,篩去重複和無用的單詞。目前網上開源的情感詞典包含有 知網 hownet 情感詞典 台灣大學 ntsusd 簡體中文情感極性詞典 大連理工大學情感詞彙本體。前兩個都可以在網上找到,第三個需要到其學校官網申請,說明完用途即可獲得。上述情感詞典年代...
情感分類 中文語料
title 情感分類 中文語料 data 2017 03 04 tags nltk 折騰了幾天終於上午用nltk實現了中文語料的分類。把整個流程記錄一下。用的是譚松波老師的酒店分類的語料庫,有四個版本 2000 balanced 4000 balanced 6000 balanced 10000 u...
中文情感分析語料庫
中文情感分析語料庫 中文情感分析的語料庫非常少,這五個中文語料庫是我在網上的蒐集的。url 資料集2 2012年ccf自然語言處理與中文計算會議 中文微博情感分析測評資料 url 條微博,共約 20000 條微博。資料採用xml格式,已經預先切分好句子。每條句子的所有標註資訊都包含在元素的屬性中。其...