文字相似計算是進行文字聚類的基礎,和傳統結構化數值資料的聚類方法類似,文字聚類是通過計算文字之間"距離"來表示文字之間的相似度並產生聚類。文字相似度的常用計算方法有餘弦定理和jaccard係數。但是文字資料與普通的數值資料或類屬資料不同,文字資料是一種半結構化資料,在進行文字挖掘之前必須要對文字資料來源進行處理,如分詞、向量化表示等,其目的就是使用量化的數值來表達這些半結構化的文字資料。使其適用於分析計算。
d1 (a, b, c, c, s, d, a, b, t, s, s, s, t, w, w)
d2(c, s, s, t, w, w, a, b, s, b)d1
d2abc
dstw
d1d2a
0.08
0.04
b0.08
0.08
c0.08
0.04
d0.04
0.00
s0.16
0.12
t0.08
0.04
w0.08
0.08
lna0.4b
0.4c
0.4d
1.1s
0.4t
0.4w
0.4
最後將正規化後的詞頻與idf值相乘,結果如下:
d1d2
a0.032
0.016
b0.032
0.032
c0.032
0.016
d0.044
0.000
s0.064
0.048
t0.032
0.016
w0.032
0.032
在得到tfidf權值以後就可以利用這些資料利用餘弦定理或jaccard係數來計算文字之間的相似度以實現文字聚類等標準的文字挖掘演算法了。
參考:
文字向量表示及TFIDF詞彙權值
文字相似計算是進行文字聚類的基礎,和傳統結構化數值資料的聚類方法類似,文字聚類是通過計算文字之間 距離 來表示文字之間的相似度並產生聚類。文字相似度的常用計算方法 有餘弦定理和jaccard係數。但是文字資料與普通的數值資料或類屬資料不同,文字資料是一種半結構化資料,在進行文字挖掘之前必須要對文字資...
TF IDF 文字的一種向量表示
tf idf是term frequency inverse document frequency的簡稱。她是一種非常常見的用於將文字轉化為有意義的數字表示的演算法。這個技術被廣泛的應用與nlp的各個方面。本文將會介紹怎樣計算和應用tf idf。為了將機器學習演算法或統計技術應用到任何形式的文字上,應...
6 2 用詞向量表示文字(分布式表示)
import jieba import gensim from gensim.models.doc2vec import doc2vec,labeledsentence taggededdocument gensim.models.doc2vec.taggeddocument tag list cu...