推薦系統的本思想
• 利用使用者和物品的特徵資訊,給使用者推薦那些具有使用者喜歡的特徵的物品。
• 利用使用者喜歡過的物品,給使用者推薦與他喜歡過的物品相似的物品。
• 利用和使用者相似的其他使用者,給使用者推薦那些和他們興趣愛好相似的其他用
戶喜歡的物品。
• 知你所想,精準推送
– 利用使用者和物品的特徵資訊,給使用者推薦那些具有使用者喜歡的特徵的物品。
• 物以類聚
– 利用使用者喜歡過的物品,給使用者推薦與他喜歡過的物品相似的物品。
• 人以群分
– 利用和使用者相似的其他使用者,給使用者推薦那些和他們興趣愛好相似的其他使用者喜
歡的物品。
推薦系統的資料分析
• 要推薦物品或內容的元資料,例如關鍵字,分類標籤,基因描述等;
• 系統使用者的基本資訊,例如性別,年齡,興趣標籤等
• 使用者的行為資料,可以轉化為對物品或者資訊的偏好,根據應用本身的不同,
可能包括使用者對物品的評分,使用者檢視物品的記錄,使用者的購買記錄等。這
些使用者的偏好資訊可以分為兩類:
品的喜好,例如使用者購買了某物品,使用者檢視了某物品的資訊等等。
推薦系統的分類
• 根據實時性分類
– 離線推薦
– 實時推薦
• 根據推薦原則分類
– 基於相似度的推薦
– 基於知識的推薦
– 基於模型的推薦
• 根據推薦是否個性化分類
– 基於統計的推薦
– 個性化推薦
• 根據資料來源分類
– 基於人口統計學的推薦
– 基於內容的推薦
– 基於協同過濾的推薦
推薦演算法簡介
• 基於人口統計學的推薦
• 基於內容的推薦
• 基於協同過濾的推薦
• 混合推薦
基於人口統計學的推薦演算法
基於內容的推薦演算法
基於協同過濾的推薦演算法
• 協同過濾(collaborative filtering,cf)
• 基於近鄰的協同過濾
– 基於使用者(user-cf)
– 基於物品(item-cf)
• 基於模型的協同過濾
– 奇異值分解(svd)
– 潛在語義分析(lsa)
– 支撐向量機(svm)
協同過濾(cf)推薦方法
•基於內容(content based, cb)主要利用的是使用者評價過的物品的內 容特徵,
而cf方法還可以利用其他使用者評分過的物品內容
• cf可以解決cb的一些侷限 -物品內容不完全或者難以獲得時,依然可以通過
其他使用者的反饋給出推薦 -cf基於使用者之間對物品的評價質量,避免了cb僅
依賴內容可能造成的對物品質量 判斷的干擾 -cf推薦不受內容限制,只要其他
類似使用者給出了對不同物品的興趣,cf就可以給 使用者推薦出內容差異很大的
物品(但有某種內在聯絡)
分為兩類:基於近鄰和基於模型
基於使用者的協同過濾
基於物品的協同過濾
混合推薦
• 加權混合
– 用線性公式(linear formula)將幾種不同的推薦按照一定權重組合起來,具體權重的值需要
在測試資料集上反覆實驗,從而達到最好的推薦效果
• 切換混合
– 切換的混合方式,就是允許在不同的情況(資料量,系統執行狀況,使用者和物品的數目等)下,
選擇最為合適的推薦機制計算推薦
• 分割槽混合
– 採用多種推薦機制,並將不同的推薦結果分不同的區顯示給使用者
• 分層混合
– 採用多種推薦機制,並將乙個推薦機制的結果作為另乙個的輸入,從而綜合各個推薦機制的優
缺點,得到更加準確的推薦
推薦系統評測
• 讓使用者更快更好的獲取到自己
需要的內容
• 讓內容更快更好的推送到喜歡
它的使用者手中
• 讓**(平台)更有效的保留
使用者資源
推薦系統實驗方法
• 離線實驗
– 通過體制系統獲得使用者行為資料,並按照一定格式生成乙個標準的資料集
– 將資料集按照一定的規則分成訓練集和測試集
– 在訓練集上訓練使用者興趣模型,在測試集上進行**
– 通過事先定義的離線指標評測演算法在測試集上的**結果
• 使用者調查
– 使用者調查需要有一些真實使用者,讓他們在需要測試的推薦系統上完成一些任務;我們需要記錄
他們的行為,並讓他們回答一些問題;最後進行分析
– ab測試
推薦系統評測指標
• **準確度
• 使用者滿意度
• 覆蓋率
• 多樣性
• 驚喜度
• 信任度
• 實時性
• 健壯性
• 商業目標
推薦準確度評測
• 評分**
– 很多**都有讓使用者給物品打分的功能,如果知道使用者對物品的歷史評分,就可
以從中學習乙個興趣模型,從而**使用者對新物品的評分
– 評分**的準確度一般用均方根誤差(rmse)或平均絕對誤差(mae)計算
• top-n推薦
top-n推薦
– top-n推薦的**準確率一般用精確率(precision)和召回率(recall)來度量
準確率、精確率和召回率
•假如某個班級有男生80人,女生20人,共計100人,目標是找出所有女生。
現在 某人挑選出50個人,其中20人是女生,另外還錯誤的把30個男生也當作女生
挑選出來了。那麼怎樣評估他的工作?
•將挑選結果用矩陣示意表來表示:定義tp, fn, fp, tn四種分類情況
•準確率(accuracy)
——正確分類的item數與總數之比
a =(20+50)/100 = 70%
•精確率(precision)
——所有被檢索到的item中,"應該被檢索到"的item佔的比例
p = 20/ (20+30) = 40%
•召回率(recall)
——所有檢索到的item佔所有"應該檢索到的item"的比例
r = 20 / (20+0) = 100%
大資料人才推薦系統 Talent RADAR
文章講的是大資料人才推薦系統 talent radar,8月9日,專注於大資料分析的人力資源公司 數聯尋英 攜手國內最大的雇主品牌諮詢及招聘解決方案提供商hiall,發布了基於大資料的精準員工推薦模式及解決方案 人才雷達 talent radar 該方案基於企業定製化的招聘需求,通過對社會化 及簡歷...
推薦系統2 大資料應用
首先普及一下資料量單位,然後再來看bat大資料應用 位元組 byte 8個二進位制位為乙個位元組 b 最常用的單位.1kb kilobyte 千位元組 1024b,1mb megabyte 兆位元組 簡稱 兆 1024kb,1gb gigabyte 吉位元組 又稱 千兆 1024mb,1tb tri...
大資料實時推薦系統的思考
昨晚思考了實時數倉的問題,對下列案例進行了如下思考.這個肯定不是實時推薦。那麼在拼多多中買了東西,馬上在小公尺瀏覽器中有京東的推薦,這個是不是實時?是實時推薦,但是不是大資料實時推薦。嚴格來講,談不上推薦。因為這種只是根據你買的東西a,推薦了類似商品名稱的商品給你。大資料實時推薦指的是,你買了a,我...