文字→特徵工程(決定著模型分類的上界)→分類器(逼近模型的上限)→類別
1.經典的文字特徵(前人的研究的成熟理論)
2.手工構造新的特徵(手工提取,看資料集中是否有好的性特徵)
3.用神經網路提取(神經網路僅作為特徵提取器來用)
tf、tfidf、doc2vec、word2vec
tf詞頻
tfidf:詞頻-逆向檔案頻率(tf-idf)是一種在文字挖掘中廣泛使用的特徵向量化方法,它可以體現乙個文件中詞語在語料庫中的重要程度。
doc2vec:文件到向量。主要是用深度學習的方法去訓練,將文字轉化為向量。
word2vec:文字到向量,是乙個分類器,它採用一系列代表文件的詞語來訓練word2vec model。該模型將每個詞語對映到乙個固定大小的向量。word2vec model使用文件中每個詞語的平均數來將文件轉換為向量,然後這個向量可以作為**的特徵,來計算文件相似度計算等等。
1.尋找可能會影響分類的新特徵。文章長度可能會影響到分類,所以可以把文章的長度作為乙個新特徵。
2、人工構造可能影響分類的新特徵。
減弱維度災難,計算量降低。
降低學習難度。
包裹式:從一組特徵中挑出幾個子集進行訓練驗證,最後選擇最優的子集。
嵌入式:用分類器進行特徵選擇。logistic回歸中將w向量中比較小的(權重小的)剔除。
過濾式:在分類器之前單獨對特徵進行過濾。
將乙個高維向量進行低維對映。
有監督降維:(使用了樣本類別資訊)lda,即線性判別分析
無監督降維:lsa淺層語義分析、lda對詞頻矩陣進行分解,得到向量、nmf對tfidf進行矩陣分解。
任務方案思考 文字分類篇
來自 cs的陋室 自己接觸的專案大都是初創,沒開始多久的專案,從0到1的不少,2020年快結束,感覺這個具有一定個人特色的技術經驗可以在和大家分享一下。預計會有下面篇章 文字分類可以說是nlp的入門級任務,尤其是nlu領域,最簡單的就是這個任務了,而在現實應用中,這也是最容易實現的乙個任務,因此在面...
文字分類任務中tf idf的理解
維基百科給的定義式 tf idf是一種統計方法,用以評估一字詞對於乙個檔案集或乙個語料庫中的其中乙份檔案的重要程度。字詞的重要性隨著它在檔案中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。tf idf加權的各種形式常被搜尋引擎應用,作為檔案與使用者查詢之間相關程度的度量或評級。...
文字分類 libsvm
關於 libsvm 的介紹以及相關 網上很多,感興趣可以找找。這是libsvm 這裡主要是針對之前學習過的幾種特徵篩選演算法用 libsvm 進行比較。採用搜狗實驗室的資料,選擇商業類文字 1001 篇,娛樂類文字 1208 篇,測試集 29904 篇。分別採用文件頻次,卡方分布,互資訊,資訊增益來...