博文tf-idf演算法介紹及實現主要介紹了tf-idf,包括原理、不足、實戰。閱讀問題的提出中包含了對tf-idf的拓展。
tf-idf(term frequency–inverse document frequency,詞頻-逆向檔案頻率)是一種用於資訊檢索(information retrieval)與文字挖掘(text mining)的常用加權技術。tf-idf是一種統計方法,用以評估一字詞對於乙個檔案集或乙個語料庫中的其中乙份檔案的重要程度。字詞的重要性隨著它在檔案**現的次數成正比增加,但同時會隨著它在語料庫**現的頻率成反比下降。問題:此處的log的作用?為何tf是歸一化而idf是取log?歸一化為什麼可以解決偏向問題?這篇從歷史角度粗略了解log的由來:詞頻(tf):表示詞條(關鍵字)在文字**現的頻率。
這個數字通常會被歸一化(一般是詞頻除以文章總詞數),以防止它偏向長的檔案。即:
逆向檔案頻率 (idf):某一特定詞語的idf,可以由總檔案數目除以包含該詞語的檔案的數目,再將得到的商取對數得到。
某一特定檔案內的高詞語頻率,以及該詞語在整個檔案集合中的低檔案頻率,可以產生出高權重的tf-idf。因此,tf-idf傾向於過濾掉常見的詞語,保留重要的詞語。但演算法不考慮語義資訊,無法解決一詞多義或者一義多詞的問題。
(1)沒有考慮特徵詞的位置因素對文字的區分度,詞條出現在文件的不同位置時,對區分度的貢獻大小是不一樣的。
(3)傳統tf-idf中的idf部分只考慮了特徵詞與它出現的文字數之間的關係,而忽略了特徵項在乙個類別中不同的類別間的分布情況。
(4)對於文件**現次數較少的重要人名、地名資訊提取效果不佳。
這篇從資訊熵和例項角度介紹log的合理性:
所謂資訊是指對不確定性(熵)的減小程度,資訊的單位是位元(bit),資訊量越大對於不確定性的減小程度越大。從博文中我們可以了解到:tf-idf中idf實際上是tf的權重,tf代表頻率,idf從資訊熵角度出發進行定義,代表在文字集上分布的廣泛程度,二者本質不同,計算方式自然不同。而對tf進行歸一化能夠防止tf偏向長的檔案,我認為可以從機器學習中歸一化的作用上理解問題:
在機器學習領域中,不同評價指標(即特徵向量中的不同特徵就是所述的不同評價指標)往往具有不同的量綱和量綱單位,這樣的情況會影響到資料分析的結果,為了消除指標之間的量綱影響,需要進行資料標準化處理,以解決資料指標之間的可比性。原始資料經過資料標準化處理後,各指標處於同一數量級,適合進行綜合對比評價。如果單檔案中某一生僻詞出現的頻率非常高,這將導致整個文字集中該次的未歸一化的tf相對較高,如果不對tf進行歸一化而直接進行idf加權計算,那麼idf這個泛化指標即使較小,但作用也十分有限。因此,需要對tf進行歸一化。
該**實際上是改變了權重計算方法,idf是對文件數的統計和計算,而iwf是對詞語層面的統計和計算。**表示:
這種加權方法降低了語料庫中同型別文字 對詞語權重的影響,更加精確地表達了這個詞語在待 查文件中的重要程度。
TF IDF及其演算法
概念 tf idf term frequency inverse document frequency 是一種用於資訊檢索與資訊探勘的常用加權技術。tf idf是一種統計方法,用以評估一字詞對於乙個檔案集或乙個語料庫中的其中乙份檔案的重要程度。字詞的重要性隨著它在檔案中出現的次數成正比增加,但同時會...
TF IDF及其演算法
概念 tf idf term frequency inverse document frequency 是一種用於資訊檢索與資訊探勘的常用加權技術。tf idf是一種統計方法,用以評估一字詞對於乙個檔案集或乙個語料庫中的其中乙份檔案的重要程度。字詞的重要性隨著它在檔案中出現的次數成正比增加,但同時會...
TF IDF及其演算法
tf idf及其演算法 概念 tf idf term frequency inverse document frequency 是一種用於資訊檢索與資訊探勘的常用加權技術。tf idf是一種統計方法,用以評估一字詞對於乙個檔案集或乙個語料庫中的其中乙份檔案的重要程度。字詞的重要性隨著它在檔案中出現的...