協同過濾概述

2021-10-09 11:14:07 字數 730 閱讀 3959

定義

使用者資料簡介

由於協同過濾推薦演算法是僅僅基於使用者行為資料設計的推薦演算法,這裡首先介紹一下使用者行為資料。

使用者行為資料一般分為顯性反饋資料(比如評分)和隱性反饋資料(比如頁面瀏覽行為);假若按照反饋的明確性分,可以分為正反饋(行為傾向於使用者喜歡該物品)和負反饋(行為傾向於使用者不喜歡該物品)。資料儲存一般形式為日誌(成為原始日誌),然後加工成為會話日誌,型別包含:

l  無上下文資訊的隱性反饋資料集:每一條行為記錄僅僅包含使用者id和物品id。

l  無上下文資訊的顯性反饋資料集:每一條行為記錄包含使用者id、物品id、使用者對物品的評分。

l  有上下文資訊的隱性反饋資料集:每一條行為記錄包含使用者id和物品id、使用者對物品產生行為的時間。

l  有上下文資訊的顯性反饋資料集:每一條行為記錄包含使用者id、物品id、使用者對物品的評分、使用者對物品產生行為的時間。

使用者行為資料一般儲存在分布式資料倉儲(資料庫或者分布式檔案系統)中。

使用者行為資料分析

下面兩種規律為一般性規律,對於具體應用還需結合自身資料實際情況。

1.       

使用者活躍度和物品活躍度分布一般遵從長尾分布(簡單理解就是活躍度和數量成近似反比 – 以「使用者」為例:隨著活躍度的增長,使用者數量減少)。

演算法一般來說協同過濾推薦分為三種型別。第一種是基於使用者的協同過濾(user-cf),第二種是基於商品的協同過濾(item-cf),第三種是基於模型的協同過濾(現在是最主流的協同過濾型別)。

協同過濾 基於使用者的協同過濾itemCF

基於使用者的協同過濾演算法也被稱為最近鄰協同過濾或knn k nearest neighbor,k最近鄰演算法 其核心思想就是,首先根據相似度計算出目標使用者的鄰居集合,然後用鄰居使用者評分的加權組合來為目標使用者作推薦。通常這些演算法都可以總結成三步 首先,使用使用者已有的評分來計算使用者之間的相...

Item based協同過濾

item based top n recommendation algorithms 過程 1.構建乙個m m的矩陣,每一列最多有k個非0值,比如第j列,非0值代表和第j個item最相關的k個item。k一般10 20,不會很大,保持矩陣的稀疏性。3.上述矩陣相乘,等於是權重累加 比如使用者買過了a...

協同過濾演算法

3種形式的協同過濾 collaborative filtering 演算法 1 user based 相同 相似 使用者的喜好相同 2 item based 能夠引起使用者興趣的專案,必定與其之前評分高的專案相似 3 model based 先用歷史資料得到乙個模型,再用此模型進行 參考 這個位址是...