對使用者的行為進行分析得到使用者的偏好後,可以根據使用者的偏好計算相似使用者和物品,然後可以基於相似使用者或物品進行推薦。這就是協同過濾中的兩個分支了,即基於使用者的協同過濾和基於物品的協同過濾。
關於相似度的計算,現有的幾種方法都是基於向量(vector)的,其實也就是計算兩個向量的距離,距離越近相似度越大。在推薦場景中,在使用者-物品偏好的二維矩陣中,我們可以將乙個使用者對所有物品的偏好作為乙個向量來計算使用者之間的相似度,或者將所有使用者對某個物品的偏好作為乙個向量來計算物品之間的相似度。
1.同現相似度
計算公式為:
分母|n(i)|是喜歡物品i的使用者數,而分子|n(i)∩n(j)|是同時喜歡物品i和物品j的使用者資料。
為了防止j為熱門物品,修正為:
2.歐式距離相似度
最初用於計算歐幾里得空間中的兩個點的距離,假設x、y是n維空間的兩個點,它們之間的歐幾里得距離是:
可以看出,當n=2時,歐幾里得距離是平面上的兩點的距離。
當用歐幾里得距離表示相似度時,一般採用一下公式進行轉換:距離越小,相似度越大。
3.cosine相似度
cosine相似度被廣泛應用於計算文件資料的相似度:
推薦演算法基礎 相似度計算方法彙總
推薦系統中相似度計算可以說是基礎中的基礎了,因為基本所有的推薦演算法都是在計算相似度,使用者相似度或者物品相似度,這裡羅列一下各種相似度計算方法和適用點 similarity cos a b a b i 1 nai bi i 1n ai 2 i 1n b i 2 這個基本上是最常用的,最初用在計算文...
計算相似度的LLR演算法
loglikelihood ratio test是一種假設檢驗的方法。wikipedia上的簡介 surprise and coincidence及相應accuratemethods for the statistics of surprise and coincidence中llr log lik...
使用余弦相似度演算法計算文字相似度
在求相似度的時候經常會有以下一些方法,1.基於詞向量 2.基於字元的 3.基於概率統計的 4.基於詞嵌入模型的 在求文字相似度的時候經常會使用余弦相似度來求,下面來記錄一下余弦相似度的原理。余弦相似度量 計算個體間的相似度。相似度越小,距離越大。相似度越大,距離越小。假設有3個物品,item1,it...