推薦系統實踐 項亮(2)利用使用者行為資料

2021-09-01 12:52:05 字數 2697 閱讀 5178

目錄

第2章 利用使用者行為資料

2.1 使用者行為資料簡介

2.2 使用者行為分析

2.2.1 使用者活躍度和物品流行度的分布:長尾分布

2.2.2 使用者活躍度和物品流行度的關係:

2.3 實驗設計和演算法評測

2.4 基於領域的演算法

2.4.1 基於使用者的協同過濾演算法usercf

2.4.2 基於物品的協同過濾演算法itemcf

2.4.3 usercf和itemcf的比較

2.5 隱語義模型lfm

2.6 基於圖的模型

《論語·公治長》:聽其言,觀其行

通過使用者留下的文字和行為了解使用者的興趣和需求。

使用者行為分類

(1)按照反饋的屬性分類

顯性反饋行為:評分、喜歡/不喜歡

隱性反饋行為:不能明確反應使用者喜好的行為。比如:頁面瀏覽行為。

(2)按照反饋的方向分

正反饋和負反饋

物品流行度分布:橫軸-物品流行度(對同一物品產生過行為的使用者數),縱軸-相同流行度的物品總數

使用者活躍度分布:橫軸-使用者活躍度(同一使用者產生過行為的物品總數),縱軸-相同活躍度的使用者數

協同過濾:使用者齊心協力,共同努力,為彼此找到最滿足需求的東西。

協同過濾演算法:基於領域的方法(分為基於使用者的協同過濾和基於物品的協同過濾)、隱語義模型lfm、基於圖的隨機遊走演算法。

基於使用者的協同過濾:推薦和使用者相似的其他使用者喜歡的物品

基於物品的協同過濾:推薦和使用者之前喜歡的物品相似的其他物品

資料集選擇、實驗設計

評測指標:準確率/召回率、覆蓋率、新穎度

學長經驗談:其實說起來,就是一種基於使用者的協同過濾

usercf的演算法主要包含兩個步驟:

(1)找到和目標使用者興趣相似的使用者集合

(2)找到這個集合中使用者喜歡的,且目標使用者沒有聽說過的物品推薦給目標使用者。

兩個使用者相似度的計算:jaccard公式

余弦:相似度計算改進:

基於商品的協同過濾也就是:購買了該商品的使用者也經常購買的其他商品。

基於物品的協同過濾演算法:目前應用更廣泛。亞馬遜、netflix、hulu、youtube等

itemcf主要也有兩個步驟:

(1)計算物品之間的相似度

(2)根據物品的相似度和使用者的歷史行為給使用者生成推薦列表

物品間的相似度計算:n(i)表示對物品i喜歡的使用者數

相似度改進:減少使用者活躍度對物品相似度的影響。

活躍使用者對物品相似度的貢獻 < 不活躍的使用者

usercf側重反應和使用者興趣相似的小群體的熱點,更社會化。比如新聞**。

itemcf側重維繫使用者的歷史興趣,更加個性化,是個人興趣的傳承。比如各大電商。

哈利波特問題:

itemcf在計算物品相似度時:

如果物品j是《哈利波特》非常熱門,每個人都會買,會導致所有商品都跟哈利波特很相似。

解決方案:

(1)加上懲罰項

(2)基於內容的推薦:這裡暫不討論

3個步驟:

(1)將物品按照興趣分類

(2)對使用者的興趣分類

(3)從分類中,挑選使用者可能喜歡的物品

lfm與基於領域的方法比較:

(1)理論基礎:lfm是學習方法,基於領域的方法是基於統計的方法,沒有學習

(2)離線計算的空間複雜度:lfm是儲存模型,而基於領域的方法需要儲存所有資料,lfm更節省記憶體

(3)離線計算的時間複雜度:基本一致,如果迭代次數較多,lfm稍高於基於領域的方法

使用者和商品可以用如下二分圖表示。將個性化推薦問題轉化為,從乙個物品到另乙個物品的路徑問題。路徑越短,路徑的條數越多,路過的使用者點不會有出度特別大的點。

經典演算法介紹:personalrank演算法

項亮 推薦系統實踐

專題直播 2012年8月21日至8月22日,中國移動在北京國際會議中心舉辦 第六屆移動網際網路國際研討會 聚焦於雲 管 端 臺 更廣泛 更深入地探索構建合作共贏的產業新生態,打造移動互聯新生活。以下為hulu軟體研究人員項亮發表演講。以下為演講速記 謝謝大家來聽我們的報告。之前的嘉賓都講了很多介面怎...

推薦系統實踐 項亮(1)好的推薦系統

目錄 第1章 好的推薦系統 1.1 什麼是推薦系統 1.2 個性化推薦系統的應用 1.2.1 電子商務 1.2.3 個性化 網路電台 1.2.4 社交網路 1.2.5 個性化閱讀 1.2.6 基於位置的服務 1.2.7 個性化郵件 1.2.8 個性化廣告 1.3 推薦系統評測 1.3.1 推薦系統實...

推薦系統實戰第二章 利用使用者行為資料

1 使用者行為資料簡介 1.1 使用者行為分類 a.顯性反饋行為 使用者明確表示對物品喜好的行為 比如評分,反饋喜好與否 b.隱性反饋行為 頁面瀏覽行為 2 使用者行為分析 2.1 使用者活躍度和物品流行度的分布 長尾分布 英文中大部分詞的詞頻很低,只有很少的詞被經常使用 2.2 使用者活躍度和物品...