文字向量化,顧名思義就是將一段文字(一篇文章,乙個段落或者是乙個句子)變成乙個向量。在盡可能不丟失原始文字資訊的情況下,將文字變成可以計算的向量,可以幫助後續的文字聚類、分類、相似度匹配等等的諸多任務。1.詞集模型:one-hot編碼向量化文字(統計各詞在文字中是否出現)
2.詞袋模型:文件**現的詞對應的one-hot向量相加(統計各詞在文字**現次數,在詞集模型的基礎上。)
3.詞袋模型+idf:tfidf向量化文字(詞袋模型+idf值,考慮了詞的重要性)
4.n-gram模型:考慮了詞的順序
1到5的出現是後者為了彌補前者的不足。
詞集模型沒有考慮詞的頻率,因此出現了詞袋模型
詞袋模型沒有考慮詞的重要度,因此出現了詞袋+idf的模型
詞袋模型沒有考慮詞的順序,因此出現了n-gram模型
n-gram模型的優點是考慮了詞的順序,但是會出現詞表膨脹的問題。
注意:本文不考慮共現矩陣以及降維
常說的文字向量化表示方法將上述幾種模型分為:離散化表示方法和分布式表示方法
離散化表示方法:包括詞袋模型(可用tf-idf進行修正)和n-gram模型
分布式表示方法:word2vec模型
離散化表示方法的問題:
無法衡量詞向量之間的關係
詞的維度隨著語料庫的增長膨脹、n-gram詞序列 隨著語料庫膨脹更快
資料稀疏問題
分布式表示方法的優點:
保證了詞的相似性
保證了詞空間分布的相似性
參考:1.nlp | 文字特徵向量化方法
2.講義《詞向量到word2vec相關應用》
3.word2vec有什麼應用?
4.用word2vec模型對文件進行自動分類
5.文字挖掘預處理之向量化與hash trick
文字向量化
table of contents概述 word2vec nnlm c wcbow and skip gram doc2vec str2vec 文字表示是自然語言處理中的基礎工作,文字表示的好壞直接影響到整個自然語言處理系統的效能。文字向量化就是將文字表示成一系列能夠表達文字語義的向量,是文字表示的...
文字向量化
文字向量化,就是把文字轉化為向量形式。這裡用兩種方式實現本文向量,一種是tf方式,一種是tf idf方式,且這裡向量的長度就是字典的長度。計算兩個向量余弦相似度import math defcount cos similarity vec 1,vec 2 if len vec 1 len vec 2...
文字資訊向量化
from sklearn.feature extraction.text import countvectorizer countvec countvectorizer min df 2 兩個以上文件出現的才保留 文件的詞與詞之間用空格分隔 x countvec.fit transform 我們 都...