tf-idf的演算法,目的是計算詞的權重,由兩部分組成,一部分是tf(詞項頻率),另一部分是idf(逆向文件頻率)。通俗的講,就是,tf-idf = tf * idf。也就是說,我們在考慮詞的權重的時候,不再只考慮這個詞在文件**現多少次。
tf考慮了詞項的類內代表性,其實,我也不懂什麼叫類內代表性,總之,它就是像數數一樣,看乙個詞在乙個句子**現多少次,然後計算頻率。但是這個指標並不能完全反映文字類別的區分度,文件高頻詞極有可能在其他文件中也重複出現,例如「的」、「一」等。term frequency中文翻譯就是詞頻。
舉個例子:
這個詞語在此文字出現的頻率 除以 此文字詞語的總個數 即是詞頻。如「你們」在乙個文字出現10次,此文字一共100個詞語,那麼「你們」的詞頻就是10/100=0.1。
考慮到tf的缺點之後,我們又引入了idf,意思是逆向文件頻率,考慮了詞項的全域性代表性,表示文件中總文件數目與文件中包含該詞項數目的比值:
舉個例子:
idf的具體計算方式是總文字的數目除以包含該詞語檔案的數目再取對數,以達到給每個詞語賦予不同權重的意義。我們一共有100個文字,其中10個中找到了我們想要的詞語,那麼我們的idf值為log(100/10)= 1。
idf值隨著數字分母的變大而變小,也就是說當我們在總文字裡找到越多的文字包含我們想要的詞,這就證明這個詞非常的普遍,並沒有任何的指引性,導致我們的idf值下降。極端的例子,如果說所有檔案裡都有我們想要查詢的這個詞語,那麼分子分母相等再取對數,最後的結果為0,就代表在我們現有的文字或語料庫裡,這個詞語沒有任何特殊的意義和識別性。
最終我們的tf-idf值就等於 tf值idf值,例如詞語「原子彈」的tf值是0.1,idf值是2.8,那麼它的tfidf值為0.28。
如果我們有3個詞語a、b、c,它們的tf-idf值分別為0,28、0.53和0.77,那麼我們加起來,這三個詞語在文章中加起來的tf*idf值就為1.58。
機器學習 TF IDF是什麼
在資訊檢索與文字挖掘中經常遇見單詞的 tf idf term frequency inverse document frequency 這個值的大小能夠體現它在文字集合中的某乙個文件裡的重要性。tf idf是一種統計方法,用以評估一字詞對於乙個檔案集或乙個語料庫中的其中乙份檔案的重要程度。字詞的重要...
TF IDF學習筆記
tf就是term frequency,即單詞頻率。就是統計一篇文章中某詞出現的次數,它是基於這樣的乙個假設 查詢關鍵字中的單詞應該相對於其他單詞更加重要,而文件的重要程度,也就是相關度,與單詞在文件 現的次數成正比。但是,這是非常不合理的 就是要去 懲罰 那些在文件 現太多次的單詞。它也有乙個假設 ...
學習筆記 Hadoop是什麼
1.hadoop是什麼 hadoop原來是apachelucene下的乙個子專案,它最初是從nutch專案中分離出來的專門負責分布式儲存以及分布式運算的專案。簡單地說來,hadoop是乙個可以更容易開發和執行處理大規模資料的軟體平台。2.下面列舉hadoop主要的一些特點 1擴容能力 scalabl...