前面計算使用者間興趣相似度使用的是余弦相似度,該公式過於粗糙,需要改進該公式。
以圖書為例,如果兩個使用者都曾經買過《新華字典》,這絲毫不能說明他們興趣相似,因為絕大多數中國人小時候都買過《新華字典》。但如果兩個使用者都買過《資料探勘導論》,那可以認為他們的興趣比較相似,因為只有研究資料探勘的人才會買這本書。換句話說,兩個使用者對冷門物品採取過同樣的行為更能說明他們興趣的相似度。因此,john s. breese在**中提出了如下公式,根據使用者行為計算使用者的興趣相似度:
其中,n(i)表示使用者u,v共同感興趣的物品的個數。該公式通過
使用者相似度衡量
在機器學習中,通常會碰到相似度衡量的問題,而且廣泛用於資料探勘的分類和聚類中,描述個體之間的差異大小的方式有很多,這篇部落格總結的比較全面 然而具體到衡量使用者相似度的問題的時候,不一定所有的衡量距離的方法效果都好。目前主要有三種度量使用者間相似性的方法,分別是 余弦相似性 相關相似性以及修正的余弦...
相似度演算法之余弦相似度
余弦距離,也稱為余弦相似度,是用向量空間中兩個向量夾角的余弦值作為衡量兩個個體間差異的大小的度量。余弦值越接近1,就表明夾角越接近0度,也就是兩個向量越相似,這就叫 余弦相似性 上圖兩個向量a,b的夾角很小可以說a向量和b向量有很高的的相似性,極端情況下,a和b向量完全重合。如下圖 如上圖二 可以認...
jaccard相似度演算法
jaccard index,又稱為jaccard相似係數 jaccard similarity coefficient 用於比較有限樣本集之間的相似性與差異性。jaccard系數值越大,樣本相似度越高。兩個集合a和b交集元素的個數在a b並集中所佔的比例,稱為這兩個集合的傑卡德係數,用符號 j a,...