乙個容易想到的思路,就是找到出現次數最多的詞。如果某個詞很重要,它應該在這篇文章中多次出現。於是,我們進行"詞頻"(term frequency,縮寫為tf)統計。
結果你肯定猜到了,出現次數最多的詞是----"的"、"是"、"在"----這一類最常用的詞。它們叫做"停用詞"(stop words),表示對找到結果毫無幫助、必須過濾掉的詞。
用統計學語言表達,就是在詞頻的基礎上,要對每個詞分配乙個"重要性"權重。最常見的詞("的"、"是"、"在")給予最小的權重,較常見的詞("中國")給予較小的權重,較少見的詞("蜜蜂"、"養殖")給予較大的權重。這個權重叫做"逆文件頻率"(inverse document frequency,縮寫為idf),它的大小與乙個詞的常見程度成反比。
第一步,計算詞頻
或者第二步,計算逆文件頻率這時,需要乙個語料庫(corpus),用來模擬語言的使用環境。
如果乙個詞越常見,那麼分母就越大,逆文件頻率就越小越接近0。分母之所以要加1,是為了避免分母為0(即所有文件都不包含該詞)。log表示對得到的值取對數。
第三步,計算tf-idf
還是以《中國的蜜蜂養殖》為例,假定該文長度為1000個詞,"中國"、"蜜蜂"、"養殖"各出現20次,則這三個詞的"詞頻"(tf)都為0.02。然後,搜尋google發現,包含"的"字的網頁共有250億張,假定這就是中文網頁總數。包含"中國"的網頁共有62.3億張,包含"蜜蜂"的網頁為0.484億張,包含"養殖"的網頁為0.973億張。則它們的逆文件頻率(idf)和tf-idf如下:
tf-idf演算法的優點是簡單快速,結果比較符合實際情況。缺點是,單純以"詞頻"衡量乙個詞的重要性,不夠全面,有時重要的詞可能出現次數並不多。而且,這種演算法無法體現詞的位置資訊,出現位置靠前的詞與出現位置靠後的詞,都被視為重要性相同,這是不正確的。
自然語言處理 TF IDF演算法
當我們去了解一篇文章是不是我們所需要時就要去看摘要,看關鍵字,而對於關鍵字的提取使用的主要流行的演算法就是if idf和textrank演算法,此篇博文重點是對if idf演算法的學習。3 詞頻 逆文件頻次演算法 tf idf 是由兩部分組成,其中tf演算法是用於統計乙個詞在一篇文件出現的頻次,id...
自然語言處理 TF IDF演算法提取關鍵詞
這個標題看上去好像很複雜,其實我要談的是乙個很簡單的問題。這個問題涉及到資料探勘 文字處理 資訊檢索等很多計算機前沿領域,但是出乎意料的是,有乙個非常簡單的經典演算法,可以給出令人相當滿意的結果。它簡單到都不需要高等數學,普通人只用10分鐘就可以理解,這就是我今天想要介紹的tf idf演算法。乙個容...
自然語言處理 TF IDF演算法提取關鍵詞
這個標題看上去好像很複雜,其實我要談的是乙個很簡單的問題。這個問題涉及到資料探勘 文字處理 資訊檢索等很多計算機前沿領域,但是出乎意料的是,有乙個非常簡單的經典演算法,可以給出令人相當滿意的結果。它簡單到都不需要高等數學,普通人只用10分鐘就可以理解,這就是我今天想要介紹的tf idf演算法。乙個容...