今天來說一下什麼是tf-idf,我記得這個東西從2023年開始就一直纏繞著我,今天我把它撕扯下來,拼湊著這樣的一篇趣文,我想看過之後,大家就算沒學過高等數學,那麼對於它的原理也會了然於胸了。為了能以一種接地氣的方式表達出它的原理,本文幾乎不涉及複雜的數學公式,儘管那些公式在我看來是那麼的富有美感……
一、詞頻(term frequency,縮寫為tf)
1、計算詞頻:
(1)詞頻 = 某個詞在文章**現的次數
(2)詞頻 = 某個詞在文章**現的總次數 ÷ 文章的總詞數
二、逆文件頻率(inverse document frequency,縮寫為idf)
2、計算逆文件頻率:
逆文件頻率 = log(語料庫的文件總數 ÷ (包含該詞的文件數 + 1))
3、計算tf-idf
tf-idf = 詞頻 × 逆文件頻率
通過計算發現在文章中一共有1000個詞語,"歐洲"、"鳶尾花"、"成長"各出現20次,則這三個詞的"詞頻"(tf)都為0.02。然後,通過網頁搜尋發現,包含"的"字的網頁共有250億張,假定這就是科學類網頁總數。包含"歐洲"的網頁共有62.3億張,包含"鳶尾花"的網頁為0.484億張,包含"成長"的網頁為0.973億張。則它們的逆文件頻率(idf)和tf-idf如下:
包含該詞的文件數
idftf-idf
歐洲62.3億
0.603
0.0121
鳶尾花0.484億
2.713
0.0543
成長0.973億
2.410
0.0482
從上表可以看出,「鳶尾花」的tf-idf最高,「成長」次之,「歐洲」的tf-idf值最低。
TFIDF演算法原理
概念 tf idf term frequency inverse document frequency 是一種用於資訊檢索與資訊探勘的常用加權技術。tf idf是一種統計方法,用以評估一字詞對於乙個檔案集或乙個語料庫中的其中乙份檔案的重要程度。字詞的重要性隨著它在檔案中出現的次數成正比增加,但同時會...
TF IDF原理簡介
tf idf term frequency inverse document frequency 是一種用於 資訊檢索 與文字挖掘 的常用加權技術。tf idf是一種統計方法,用以評估一字詞對於乙個檔案集或乙個 語料庫中的其中乙份 檔案的重要程度。字詞的重要性隨著它在檔案 現的次數成 正比增加,但同...
TF IDF的原理和實現
1 tf idf原理 是term frequency inverse document frequency的縮寫,即 詞頻 逆文字頻率 它由兩部分組成,tf和idf tf也就是我們前面說到的詞頻,我們之前做的向量化也就是做了文字中各個詞的出現頻率統計,並作為文字特徵 idf,即 逆文字頻率 幾乎所有...