TF IDF學習筆記

2021-10-07 08:21:08 字數 990 閱讀 8540

tf就是term frequency,即單詞頻率。就是統計一篇文章中某詞出現的次數,它是基於這樣的乙個假設:查詢關鍵字中的單詞應該相對於其他單詞更加重要,而文件的重要程度,也就是相關度,與單詞在文件**現的次數成正比。

但是,這是非常不合理的:

就是要去「懲罰」那些在文件**現太多次的單詞。它也有乙個假設:真正攜帶「相關」資訊的單詞通常在不太多的文件**現,有時通常在極少的文件**現,如果某個單詞在大多數的文件中都存在,這個單詞帶給我們的資訊量就越少,它就越不重要。

idf可以通過df(文件頻率)計算得到,它的作用是對tf就行修正。df的意思是有多少文件含有這個單詞,idf就是df的倒數。

i df

=1df

idf=\frac

idf=df

1​tf-idf主要是用於英文場景,中文涉及同義詞,一詞多義的問題,不能簡單的用tf-idf。

實際上,在tf的定義中,並沒有對tf的上界做明顯的限制,它可以無限大,超過某一限制後,tf-idf就沒有什麼區分度了,意義就不大了。

改進可以對tf做適當的變換,比如做對數變換,讓tf的變換結果為非線性的,最後令tf-idf有足夠的區分度。

改進其實受影響的還是tf值,可以tf做標準化,特別是根據文件中最大的tf做標準化。

同樣的道理,idf也沒有定義值域,文件數n

nn對idf的影響也是非常大,可以使用下面的方法對idf進行處理:

i df

new=

logn

+1df

idf_=log\frac

idfnew

​=lo

gdfn

+1​這樣做有兩個好處:

感謝閱讀。

TF IDF概念學習筆記

今天晚上加班開發一套程式介面,等回到家已經11點30了。本來打算繼續寫我的gde x引擎,時間已經不夠了。那麼就學習一點東西吧,開啟放在桌面上的吳軍老師的 數學之美 頓時發現一片新的天地。tf idf概念。turn frequency inverse document frequency 也稱為詞彙...

TF IDF概念學習筆記

今天晚上加班開發一套程式介面,等回到家已經11點30了。本來打算繼續寫我的gde x引擎,時間已經不夠了。那麼就學習一點東西吧,開啟放在桌面上的吳軍老師的 數學之美 頓時發現一片新的天地。tf idf概念。turn frequency inverse document frequency 也稱為詞彙...

TF IDF概念學習筆記

今天晚上加班開發一套程式介面,等回到家已經11點30了。本來打算繼續寫我的gde x引擎,時間已經不夠了。那麼就學習一點東西吧,開啟放在桌面上的吳軍老師的 數學之美 頓時發現一片新的天地。tf idf概念。turn frequency inverse document frequency 也稱為詞彙...