1. 實時與離線
2. 是否個性化,還是基於統計
3. 基於模型去推薦,隨機規則
若使用者 a 與 使用者 b 相似,則推薦 a 使用者喜歡的物品給使用者 b
對於沒有明確含義的使用者資訊(登入時間,地域等sangxi)可以通過聚類等手段,給使用者打上分類標籤
對於特定標籤的使用者,又可以根據預設的規則(知識)或者模型,推薦出對應的物品
使用者資訊標籤化的過程被稱為 使用者畫像(user profiling)
公司通過收集與分析消費者的社會屬性、生活習慣、消費行為等主要資訊的資料後,抽象出乙個使用者的商業全貌作是企業應用大資料技術的基本方式
使用者畫像為公司提供足夠的資訊基礎,幫助企業快速的找到精確的使用者群體
重點是抽取物品的特徵值,實現相似計算
相似度計算用向量終點的距離或向量的距離計算即可
為什麼用余弦相似度來作為標準,個人認為是單單用距離無法很好的標籤某些向量之間的區別,可能會出現很多重複的屬性特徵
還有一些專業名詞也稍微過一下
專家標籤(pgc) 使用者自定義標籤(ugc) 降維分析資料、提取隱語義標籤(lfm)
文字資訊提取:分詞、語義處理和情感分析(nlp) 潛在語義分析(lsa)
使用者用標籤來描述物品的看法,所以使用者生成標籤(ugc)是聯絡使用者和物品的紐帶,也是反應使用者興趣的重要資料來源
乙個使用者標籤行為的資料集一般由乙個三元組(使用者,物品,標籤)的集合表示,其中一條記錄(u,i,b)表示使用者u給物品 i 打上標籤 b
簡單地計算方法
① 統計每個使用者最常用的標籤
② 對於每個標籤,統計被打過這個標籤次數最多的物品
③ 對於乙個使用者,首先找到他常用的標籤,然後找到具有這些標籤的最熱門的物品,推薦給他、
④ 所以使用者 u 對物品 i 的興趣公式為
其中第乙個 n 為使用者 u 打過標籤 b 的次數,第二個是物品 i 被打過標籤 b 的次數
單對 nlp 有一定了解的同學應該知道,標籤的數量有時可能只是因為這個詞太過於常見,才導致經常看見他
在 nlp 裡有 tf-idf 來進行處理,那這裡不也可以使用 tf-idf 的方法來減少通用詞彙的影響嗎?
詞頻-逆文件頻率(term frequency-inverse document frequency , tf-idf)是一種用於資訊檢索與文字挖掘的常用加權技術
tf-idf 是用於評估乙個詞對於包含這個詞的文章的重要程度分析,乙個詞的重要程度會隨著在文章**現的次數增加,但如果在別的文章中也經常出現,那這個詞的重要程度就會下降。
tfidf = tf * idf
詞頻(term frequency,tf),該詞在文章**現的頻率
對詞數進行歸一化,防止長文章的影響。文章中詞數 除以 總詞數
逆向檔案頻率(inverse document frequency,idf)
總文件數目除以包含該詞語的文件數目,再將得到的商取對數
為了避免所有使用者的首頁都被熱門所占領,我們需要對熱門物品進行懲罰
但在 tf 計算時,詞數除以總詞數,但在物品推薦這裡,總詞數應該沒有影響,所以我們可以略過
所以 物品的所有標籤 和 標籤總數 都可以除去,直接加入對熱門標籤和熱門物品的懲罰項
抽空再做筆記
推薦演算法分類
1 item based collective filtering 總結 物以類聚 很多 的核心演算法之一 原因 item的增長速度遠小於user的增長速度 方法 離線計算item的相似度矩陣供線上使用 缺點 由於基於item的相似性,故推薦的item相似,缺乏多樣性 2 user based co...
推薦演算法大整理 分類
a.基於流行度的演算法 基於流行度的演算法非常簡單粗暴,類似於各大新聞 微博熱榜等,根據pv uv 日均pv或分享率等資料來按某種熱度排序來推薦給使用者。這種演算法的優點是簡單,適用於剛註冊的新使用者。缺點也很明顯,它無法針對使用者提供個性化的推薦。基於這種演算法也可做一些優化,比如加入使用者分群的...
推薦演算法綜述(二)
協同過濾 cf 推薦演算法通過在使用者活動中尋找特定模式來為使用者產生有效推薦。它依賴於系統中使用者的慣用資料,例如通過使用者對其閱讀過書籍的評價可以推斷出使用者的閱讀偏好。這種演算法的核心思想就是 如果兩個使用者對於一些項的評分相似程度較高,那麼乙個使用者對於乙個新項的評分很有可能類似於另乙個使用...