定義:
tf-idf是一種用於資訊檢索與資訊探測的常用加權技術。tf-idf是一種統計方法,用以評估乙個字或者詞語對於乙個檔案集合或者語料庫中的乙份檔案的重要程度。其實它的原理也很容易理解的,乙個詞語的重要性隨著它在檔案中出現的次數增加而增加,但會同時隨著它在語料庫中出現的頻率成反比下降。tf-idf加權應用在搜尋引擎、文字聚類中。除了tf-idf之外,搜尋引擎還會使用鏈結分析的方法對結果進行排序。
例子:
例子好,簡單易懂,比講述計算方法有效多了。其中tf=term frequency,記為該單詞出現的次數除以該文件的單詞的數目。idf,記為該單詞在文件中出現的概率的倒數的對數。然後對這兩個數進行相乘。
假如一篇檔案的總詞語數是100個,而詞語「母牛」出現了3次,那麼「母牛」一詞在該檔案中的詞頻就是3/100=0.03。乙個計算檔案頻率 (idf) 的方法是測定有多少份檔案出現過「母牛」一詞,然後除以檔案集裡包含的檔案總數。所以,如果「母牛」一詞在1,000份檔案出現過,而檔案總數是10,000,000份的話,其逆向檔案頻率就是 lg(10,000,000 / 1,000)=4。最後的tf-idf的分數為0.03 * 4=0.12。
優化:1、roberto basils 提出了tf/ iwf/ iwf 方法,權重計算公式如下:w ( w
i , d) = t f( w
i, d) * id f( w
i)= n ( w
id) * log ( n ( w
i) / n)
2其中n ( w
i) 是文件中出現wi 的次數, n 是文件中所有詞出現的次數之和, n ( w
id ) 文字中出現wi 的次數,實現結果表明比tf/idf 演算法有很大提高。
tf-idf統計原理介紹
主題詞提取:
推薦系統實踐 閱讀筆記4
latent factor model 演算法理論 對於某個使用者,首先得到他的興趣分類,再從分類中挑選他可能喜歡的物品 基於使用者行為的自動聚類 p83 迭代優化p q兩個引數 負樣本採集問題 熱門商品卻沒有被使用者喜歡的商品作為該使用者的負樣本 重要的引數有 1.隱藏的特徵個數f 2.學習速率a...
推薦系統實踐 基於鄰域演算法 閱讀筆記3
2.基於鄰域的推薦演算法 2.1 user cf演算法 1.計算使用者之間的相似度,得到目標使用者的興趣相似的集合 2.從這個集合中選取目標使用者沒有使用的物品作為推薦 流程 計算使用者的相似度 余弦相似度 1.建立物品 使用者的倒排索引表,通過將此表每個物品的對應使用者 兩兩標記 2.關於所有使用...
推薦系統實踐筆記(一)
import pandas as pd from pandas import series,dataframe from operator import itemgetter,attrgetter import math unames user id gender age occupation zi...