tf-idf有兩層意思,一層是"詞頻"(term frequency,縮寫為tf),另一層是"逆文件頻率"(inverse document frequency,縮寫為idf)。
假設我們現在有一片長文叫做《量化系統架構設計》詞頻高在文章中往往是停用詞,「的」,「是」,「了」等,這些在文件中最常見但對結果毫無幫助、需要過濾掉的詞,用tf可以統計到這些停用詞並把它們過濾。當高頻詞過濾後就只需考慮剩下的有實際意義的詞。
第一步,計算詞頻:
考慮到文章有長短之分,為了便於不同文章的比較,進行"詞頻"標準化。
第二步,計算逆文件頻率:
這時,需要乙個語料庫(corpus),用來模擬語言的使用環境。
如果乙個詞越常見,那麼分母就越大,逆文件頻率就越小越接近0。分母之所以要加1,是為了避免分母為0(即所有文件都不包含該詞)。log表示對得到的值取對數。
第三步,計算tf-idf:
tf-idf的優點是簡單快速,而且容易理解。缺點是有時候用詞頻來衡量文章中的乙個詞的重要性不夠全面,有時候重要的詞出現的可能不夠多,而且這種計算無法體現位置資訊,無法體現詞在上下文的重要性。如果要體現詞的上下文結構,那麼你可能需要使用word2vec演算法來支援。
文章參考:
生動理解關聯規則 Apriori演算法
有趣的啤酒和尿布 啤酒與尿布 的例子相信很多人都聽說過吧,故事是這樣的 在一家超市中,人們發現了乙個特別有趣的現象,尿布與啤酒這兩種風馬牛不相及的商品居然擺在一起。但這一奇怪的舉措居然使尿布和啤酒的銷量大幅增加了。為什麼有這麼奇怪現象呢?看了資料後發現是因為美國婦女在丈夫回家前買尿布,然後丈夫順手買...
通俗理解TF IDF文字分析演算法
tf idf是一種文字詞頻 文字特徵提取 統計演算法 詞頻 tf 乙個詞語在文字中出現的頻率 文字總數 d 所蒐集的所有文字數 含關鍵字文字數 dw 含有某個詞 關鍵字 的文字數目 公式 注 idf處理目的 1 降低具有 普遍性 詞語的權重,提公升具有 個性化 的詞的頻率 2 分母dw 1是為了避免...
簡單理解TFIDF及其演算法python實現
通俗來講tf idf就是考慮單詞的重要性。字詞的重要性隨著它在檔案中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。tf idf term frequency inverse document frequency 是一種統計方法,用以評估一字詞對於乙個檔案集或乙個語料庫中的其中乙...