tf idf 原理及實踐

2021-10-04 07:21:37 字數 1903 閱讀 9283



用統計學語言表達,就是在詞頻的基礎上,要對每個詞分配乙個"重要性"權重 ,這個詞越常見 給予較小的權重,較少見的詞 給予較大的權重 ; 個人理解 在每個文件都能出現的詞 對這個文件的主題 貢獻越弱 這是比較合理的。

tf-idf = tf * idf

注釋已經加入** 要安裝 gensim 包

得到每個詞 在每個文章中的 tfidf 為後面計算 文章的主題等任務 做準備

from gensim import corpora, models, similarities

#將所有的語料 放入乙個list中 用逗號隔開 每乙個逗號 表示一篇文章

documents =[,

"a survey of user opinion of computer system response time"

,"the eps user inte***ce management system"

,"system and human system engineering testing of eps"

,"relation of user perceived response time to error measurement"

,"the generation of random binary unordered trees"

,"the intersection graph of paths in trees"

,"graph minors iv widths of trees and well quasi ordering"

,"graph minors a survey"

]#切割文章 變成 list 形式 [ [ 單詞1, 單詞2], [ 單詞3 ,單詞4]]

texts =

[[word for word in document.lower(


for document in documents]




# 詞典 將文章裡面所有的詞 按照 順序 和 詞對應起來

dictionary = corpora.dictionary(texts)

for k in dictionary.iteritems():



,k)# 詞庫,以(詞,詞頻)方式存貯

#(0, 1), (1, 1), (2, 1), (3, 1)

corpus =


for text in texts]





tfidf = models.tfidfmodel(corpus)

#計算每個詞的 tf-idf

corpus_tfidf = tfidf[corpus]

# (0, 0.39510679503439006), (1, 0.39510679503439006), (2, 0.270464478621662),

for doc in corpus_tfidf:




