latent factor model
演算法理論
對於某個使用者,首先得到他的興趣分類,再從分類中挑選他可能喜歡的物品
基於使用者行為的自動聚類
p83 迭代優化p q兩個引數
(負樣本採集問題: 熱門商品卻沒有被使用者喜歡的商品作為該使用者的負樣本)
重要的引數有:
1.隱藏的特徵個數f
2.學習速率alpha
3.正則化引數lamba
4.負樣本/正樣本比例ratio
缺點:雅虎的首頁推薦。很難做到實時推薦,因為需要反覆的迭代
e.g. 新聞推薦的冷啟動問題非常明顯
#二. 基於二分圖的模型
一邊的節點是使用者,一邊的節點是物品。連線邊代表兩者之間有聯絡
相關性評價指標:
1.兩個頂點之間很多路徑相連
2.兩個頂點之間的路徑長度比較短
3.兩個頂點之間的路徑不經過出度比較大的頂點 (避開使用者活躍度高 或者 熱門的商品)
隨機遊走的personalrank
p92==> 矩陣形式的personalrank
p94
《推薦系統實踐》閱讀筆記四 TF IDF
定義 tf idf是一種用於資訊檢索與資訊探測的常用加權技術。tf idf是一種統計方法,用以評估乙個字或者詞語對於乙個檔案集合或者語料庫中的乙份檔案的重要程度。其實它的原理也很容易理解的,乙個詞語的重要性隨著它在檔案中出現的次數增加而增加,但會同時隨著它在語料庫中出現的頻率成反比下降。tf idf...
《推薦系統實踐》讀書筆記4
為什麼要研究系統的時間特性?不同系統有不同的時效性,有的系統物品的時效性很短,熱起來,很快會冷下去 而有的系統物品的時效性長,具有比較長的生命週期。研究系統的時間特性,能增強系統的有效性推薦。比如推薦新聞,會主要選擇最近時間段發生的新聞事件進行推薦 而推薦旅遊景點,時效性較長 有些也有季節性變化 則...
推薦系統實踐 基於鄰域演算法 閱讀筆記3
2.基於鄰域的推薦演算法 2.1 user cf演算法 1.計算使用者之間的相似度,得到目標使用者的興趣相似的集合 2.從這個集合中選取目標使用者沒有使用的物品作為推薦 流程 計算使用者的相似度 余弦相似度 1.建立物品 使用者的倒排索引表,通過將此表每個物品的對應使用者 兩兩標記 2.關於所有使用...