推薦演算法專案（二）演算法分類

1. 實時與離線

2. 是否個性化，還是基於統計

3. 基於模型去推薦，隨機規則

若使用者 a 與使用者 b 相似，則推薦 a 使用者喜歡的物品給使用者 b

對於沒有明確含義的使用者資訊（登入時間，地域等sangxi）可以通過聚類等手段，給使用者打上分類標籤

對於特定標籤的使用者，又可以根據預設的規則（知識）或者模型，推薦出對應的物品

使用者資訊標籤化的過程被稱為使用者畫像（user profiling）

公司通過收集與分析消費者的社會屬性、生活習慣、消費行為等主要資訊的資料後，抽象出乙個使用者的商業全貌作是企業應用大資料技術的基本方式

使用者畫像為公司提供足夠的資訊基礎，幫助企業快速的找到精確的使用者群體

重點是抽取物品的特徵值，實現相似計算

相似度計算用向量終點的距離或向量的距離計算即可

為什麼用余弦相似度來作為標準，個人認為是單單用距離無法很好的標籤某些向量之間的區別，可能會出現很多重複的屬性特徵

還有一些專業名詞也稍微過一下

專家標籤（pgc）使用者自定義標籤（ugc）降維分析資料、提取隱語義標籤（lfm）

文字資訊提取：分詞、語義處理和情感分析（nlp）潛在語義分析（lsa）

使用者用標籤來描述物品的看法，所以使用者生成標籤（ugc）是聯絡使用者和物品的紐帶，也是反應使用者興趣的重要資料來源

乙個使用者標籤行為的資料集一般由乙個三元組（使用者，物品，標籤）的集合表示，其中一條記錄（u,i,b）表示使用者u給物品 i 打上標籤 b

簡單地計算方法

① 統計每個使用者最常用的標籤

② 對於每個標籤，統計被打過這個標籤次數最多的物品

③ 對於乙個使用者，首先找到他常用的標籤，然後找到具有這些標籤的最熱門的物品，推薦給他、

④ 所以使用者 u 對物品 i 的興趣公式為

其中第乙個 n 為使用者 u 打過標籤 b 的次數，第二個是物品 i 被打過標籤 b 的次數

單對 nlp 有一定了解的同學應該知道，標籤的數量有時可能只是因為這個詞太過於常見，才導致經常看見他

在 nlp 裡有 tf-idf 來進行處理，那這裡不也可以使用 tf-idf 的方法來減少通用詞彙的影響嗎？

詞頻-逆文件頻率（term frequency-inverse document frequency , tf-idf）是一種用於資訊檢索與文字挖掘的常用加權技術

tf-idf 是用於評估乙個詞對於包含這個詞的文章的重要程度分析，乙個詞的重要程度會隨著在文章**現的次數增加，但如果在別的文章中也經常出現，那這個詞的重要程度就會下降。

tfidf = tf * idf

詞頻（term frequency,tf），該詞在文章**現的頻率

對詞數進行歸一化，防止長文章的影響。文章中詞數除以總詞數

逆向檔案頻率（inverse document frequency,idf）

總文件數目除以包含該詞語的文件數目，再將得到的商取對數

為了避免所有使用者的首頁都被熱門所占領，我們需要對熱門物品進行懲罰

但在 tf 計算時，詞數除以總詞數，但在物品推薦這裡，總詞數應該沒有影響，所以我們可以略過

所以物品的所有標籤和標籤總數都可以除去，直接加入對熱門標籤和熱門物品的懲罰項

抽空再做筆記