自然語言處理 TF IDF演算法

2021-08-29 02:04:14 字數 673 閱讀 4052

當我們去了解一篇文章是不是我們所需要時就要去看摘要,看關鍵字,而對於關鍵字的提取使用的主要流行的演算法就是if/idftextrank演算法,此篇博文重點是對if/idf演算法的學習。

3:詞頻-逆文件頻次演算法(tf/idf)是由兩部分組成,其中tf演算法是用於統計乙個詞在一篇文件出現的頻次,idf演算法是統計乙個詞在文件集的多少個文件中出現。

n ij

n_ni

j​是表示詞i

ii在文件j

jj中出現頻次

∑ kn

kj

\sum_k n_

∑k​nkj

​表示統計文件中每個詞出現次數的總和

t fi

jtf_

tfij

​就是它的概率 ∣d∣

|d|∣d

∣是文件集中總文件數

∣ di

∣|d_i|

∣di​

∣是文件集中出現詞i

ii的文件數量,分母加1

11是為了採用拉普拉斯平滑,避免有部分新的詞沒有在語料庫中出現過導致分母為零的情況出現。

說明此次關於tf/idf演算法的學習參考的資料是《python自然語言處理實戰核心技術與演算法》

自然語言處理之TF IDF演算法

乙個容易想到的思路,就是找到出現次數最多的詞。如果某個詞很重要,它應該在這篇文章中多次出現。於是,我們進行 詞頻 term frequency,縮寫為tf 統計。結果你肯定猜到了,出現次數最多的詞是 的 是 在 這一類最常用的詞。它們叫做 停用詞 stop words 表示對找到結果毫無幫助 必須過...

自然語言處理 TF IDF演算法提取關鍵詞

這個標題看上去好像很複雜,其實我要談的是乙個很簡單的問題。這個問題涉及到資料探勘 文字處理 資訊檢索等很多計算機前沿領域,但是出乎意料的是,有乙個非常簡單的經典演算法,可以給出令人相當滿意的結果。它簡單到都不需要高等數學,普通人只用10分鐘就可以理解,這就是我今天想要介紹的tf idf演算法。乙個容...

自然語言處理 TF IDF演算法提取關鍵詞

這個標題看上去好像很複雜,其實我要談的是乙個很簡單的問題。這個問題涉及到資料探勘 文字處理 資訊檢索等很多計算機前沿領域,但是出乎意料的是,有乙個非常簡單的經典演算法,可以給出令人相當滿意的結果。它簡單到都不需要高等數學,普通人只用10分鐘就可以理解,這就是我今天想要介紹的tf idf演算法。乙個容...