TF IDF 詞頻 逆檔案頻率

2021-09-13 17:41:02 字數 886 閱讀 7064

是一種用於資訊檢索與資訊探勘的常用加權技術。tf-idf是一種統計方法,用以評估一字詞對於乙個檔案集或乙個語料庫中的其中乙份檔案的重要程度。**字詞的重要性隨著它在檔案**現的次數成正比增加,但同時會隨著它在語料庫**現的頻率成反比下降。**即乙個詞語在一篇文章**現次數越多, 同時在所有文件**現次數越少, 越能夠代表該文章.

tf指的是某乙個給定的詞語在該檔案**現的次數。這個數字通常會被歸一化(一般是詞頻除以文章總詞數), 以防止它偏向長的檔案。(同乙個詞語在長檔案裡可能會比短檔案有更高的詞頻,而不管該詞語重要與否。)

但是, 需要注意, 一些通用的詞語對於主題並沒有太大的作用, 反倒是一些出現頻率較少的詞才能夠表達文章的主題, 所以單純使用是tf不合適的。權重的設計必須滿足:乙個詞**主題的能力越強,權重越大,反之,權重越小。所有統計的文章中,一些詞只是在其中很少幾篇文章**現,那麼這樣的詞對文章的主題的作用很大,這些詞的權重應該設計的較大。idf就是在完成這樣的工作。

idf的主要思想是:如果包含詞條t的文件越少, idf越大,則說明詞條具有很好的類別區分能力。某一特定詞語的idf,可以由總檔案數目除以包含該詞語之檔案的數目,再將得到的商取對數得到。

某一特定檔案內的高詞語頻率,以及該詞語在整個檔案集合中的低檔案頻率,可以產生出高權重的tf-idf。因此,tf-idf傾向於過濾掉常見的詞語,保留重要的詞語。

TF IDF 詞頻 逆文字頻率

tf idf term frequency inverse document frequency,詞頻 逆文字頻率 是一種用於資訊檢索與資料探勘的常用加權技術,可以評估乙個詞在乙個檔案集或者乙個語料庫中對某個檔案的重要程度。乙個詞語在一篇文章 現的次數越多,同時在所有文章 現的次數越少,越能代表該文...

NLP TF IDF詞頻 逆檔案頻率演算法解析

一.什麼是tf idf tf idf term frequency inverse document frequency,詞頻 逆檔案頻率 是一種用於資訊檢索與資訊探勘的常用加權技術。tf idf是一種統計方法,用以評估一字詞對於乙個檔案集或乙個語料庫中的其中乙份檔案的重要程度。字詞的重要性隨著它在...

詞頻 逆向檔案頻率

tf idf tf idf term frequency inverse document frequency 是一種用於資訊檢索與資料探勘的常用加權技術。聽語音 tf idf是一種 統計方法,用以評估一字詞對於乙個檔案集或乙個語料庫中的其中乙份檔案的重要程度。字詞的重要性隨著它在檔案 現的次數成正...