tf-idf(term frequency-inverse document frequency, 詞頻-逆文字頻率)。是一種用於資訊檢索與資料探勘的常用加權技術,可以評估乙個詞在乙個檔案集或者乙個語料庫中對某個檔案的重要程度。乙個詞語在一篇文章**現的次數越多,同時在所有文章**現的次數越少,越能代表該文章的中心意思。
指的是乙個給定的詞語在該檔案**現的次數。這個數字通常會被歸一化(一般時詞頻除以文章總詞數),來防止這個詞偏向內容較長檔案。比如:同乙個詞語在長檔案裡可能會比短檔案有更高的詞頻。
主要思想是在語料庫中包含某個詞條的文件越少,該詞條idf越大,說明這個詞就有很強的類別區分能力。通常某個詞語的idf可以由語料庫中檔案的總數量除以包含該詞語的檔案數目,再將得到的商取對數決定。
即某乙個檔案中高頻出現的詞條,以及該詞條在整個語料庫檔案中低頻出現的線下,就可以產生高權重的tf-idf,因此,tf-idf傾向過濾掉常見的詞語,保留重要的詞語。即:字詞的重要性隨著它在檔案**現的次數成正比增加,但同時會隨著它在語料庫**現的頻率成反比下降。
TF IDF 詞頻 逆檔案頻率
是一種用於資訊檢索與資訊探勘的常用加權技術。tf idf是一種統計方法,用以評估一字詞對於乙個檔案集或乙個語料庫中的其中乙份檔案的重要程度。字詞的重要性隨著它在檔案 現的次數成正比增加,但同時會隨著它在語料庫 現的頻率成反比下降。即乙個詞語在一篇文章 現次數越多,同時在所有文件 現次數越少,越能夠代...
NLP TF IDF詞頻 逆檔案頻率演算法解析
一.什麼是tf idf tf idf term frequency inverse document frequency,詞頻 逆檔案頻率 是一種用於資訊檢索與資訊探勘的常用加權技術。tf idf是一種統計方法,用以評估一字詞對於乙個檔案集或乙個語料庫中的其中乙份檔案的重要程度。字詞的重要性隨著它在...
TF IDF詞頻的表示演算法
tf 歸一化後的詞頻 計算公式 f re q i,j freq i,j freq i j 為詞w i w i w i 在文件d j d j d j 現頻率,max len j maxlen j maxlen j 為d j d j d j 長度,d i d i d i 是文件集合d dd的乙個子集d ...