tf-idf(term frequency–inverse document frequency)是一種用於
資訊檢索
與文字挖掘
的常用加權技術。tf-idf是一種統計方法,用以評估一字詞對於乙個檔案集或乙個
語料庫中的其中乙份
檔案的重要程度。字詞的重要性隨著它在檔案**現的次數成
正比增加,但同時會隨著它在語料庫**現的頻率成反比下降。tf-idf加權的各種形式常被
搜尋引擎
應用,作為檔案與使用者查詢之間相關程度的度量或評級。除了tf-idf以外,網際網路上的搜尋引擎還會使用基於鏈結分析的評級方法,以確定檔案在搜尋結果**現的順序。
在乙份給定的檔案裡,詞頻(term frequency,tf)指的是某乙個給定的詞語在該檔案**現的次數。這個數字通常會被正規化,以防止它偏向長的檔案。(同乙個詞語在長檔案裡可能會比短檔案有更高的詞頻,而不管該詞語重要與否。)對於在某一特定檔案裡的詞語t
i 來說,它的重要性可表示為:
以上式子中 n
i,j 是該詞在檔案d
j中的出現次數,而分母則是在檔案d
j中所有字詞的出現次數之和。
逆向檔案頻率(inverse document frequency,idf)是乙個詞語普遍重要性的度量。某一特定詞語的idf,可以由總檔案數目除以包含該詞語之檔案的數目,再將得到的商取
對數得到:
然後某一特定檔案內的高詞語頻率,以及該詞語在整個檔案集合中的低檔案頻率,可以產生出高權重的tf-idf。因此,tf-idf傾向於過濾掉常見的詞語,保留重要的詞語。
有很多不同的
數學公式
可以用來
計算tf-idf。這邊的例子以上述的數學公式來計算。詞頻 (tf) 是一詞語出現的次數除以該檔案的總詞語數。假如一篇檔案的總詞語數是100個,而詞語「母牛」出現了3次,那麼「母牛」一詞在該檔案中的詞頻就是3/100=0.03。乙個計算檔案頻率 (df) 的方法是測定有多少份檔案出現過「母牛」一詞,然後除以檔案集裡包含的檔案總數。所以,如果「母牛」一詞在1,000份檔案出現過,而檔案總數是10,000,000份的話,其逆向檔案頻率就是 log(10,000,000 / 1,000)=4。最後的tf-idf的分數為0.03 * 4=0.12。
tf-idf權重計算方法經常會和
余弦相似度
(cosine similarity)一同使用於
向量空間模型
中,用以判斷兩份檔案之間的
相似性。
tfidf演算法是建立在這樣乙個假設之上的:對區別文件最有意義的詞語應該是那些在文件**現頻率高,而在整個文件集合的其他文件**現頻率少的詞語,所以如果特徵空間座標系取tf詞頻作為測度,就可以體現同類文字的特點。另外考慮到單詞區別不同類別的能力,tfidf法認為乙個單詞出現的文字頻數越小,它區別不同類別文字的能力就越大。因此引入了逆文字頻度idf的概念,以tf和idf的乘積作為特徵空間座標系的取值測度,並用它完成對權值tf的調整,調整權值的目的在於突出重要單詞,抑制次要單詞。但是在本質上idf是一種試圖抑制噪音的加權 ,並且單純地認為文字頻數小的單詞就越重要,文字頻數大的單詞就越無用,顯然這並不是完全正確的。idf的簡單結構並不能有效地反映單詞的重要程度和特徵詞的分布情況,使其無法很好地完成對權值調整的功能,所以tfidf法的精度並不是很高。
此外,在tfidf演算法中並沒有體現出單詞的位置資訊,對於web文件而言,權重的計算方法應該體現出html的結構特徵。特徵詞在不同的標記符中對文章內容的反映程度不同,其權重的計算方法也應不同。因此應該對於處於網頁不同位置的特徵詞分別賦予不同的係數,然後乘以特徵詞的詞頻,以提高文字表示的效果。
//來自維基百科
TFIDF演算法原理
概念 tf idf term frequency inverse document frequency 是一種用於資訊檢索與資訊探勘的常用加權技術。tf idf是一種統計方法,用以評估一字詞對於乙個檔案集或乙個語料庫中的其中乙份檔案的重要程度。字詞的重要性隨著它在檔案中出現的次數成正比增加,但同時會...
TF IDF原理與實踐
在資訊檢索中,tf idf 詞頻 逆文件頻率 是一種統計方法,用以評估乙個單詞在乙個文件集合或語料庫中的重要程度。經常被用作資訊檢索 文字挖掘以及使用者模型的權重因素。tf idf的值會隨著單詞在文件 現的次數的增加而增大,也會隨著單詞在語料庫 現的次數的增多而減小。tf idf是如今最流行的詞頻加...
tf idf 原理及實踐
也就是詞頻啦,即乙個詞在文 現的次數 如果乙個詞越常見,那麼分母就越大,逆文件頻率就越小越接近0。分母之所以要加1,是為了避免分母為0 即所有文件都不包含該詞 log表示對得到的值取對 用統計學語言表達,就是在詞頻的基礎上,要對每個詞分配乙個 重要性 權重 這個詞越常見 給予較小的權重,較少見的詞 ...