在機器學習中,通常會碰到相似度衡量的問題,而且廣泛用於資料探勘的分類和聚類中,描述個體之間的差異大小的方式有很多,這篇部落格總結的比較全面:
然而具體到衡量使用者相似度的問題的時候,不一定所有的衡量距離的方法效果都好。
目前主要有三種度量使用者間相似性的方法,分別是:余弦相似性、相關相似性以及修正的余弦相似性。
①余弦相似性(cosine):使用者一專案評分矩陣可以看作是n維空間上的向量,對於沒有評分的專案將評分值設為0,余弦相似性度量方法是通過計算向量間的余弦夾角來度量使用者間相似性的。設向量i和j分別表示使用者i和使用者j在n維空間上的評分,則用基於協同過濾的電子商務個性化推薦演算法研究戶i和使用者j之間的相似性為:
②修正的余弦相似性 (adjustedcosine):余弦相似度未考慮到使用者評分尺度問題,如在評分區間[1一5]的情況下,對使用者甲來說評分3以上就是自己喜歡的,而對於使用者乙,評分4以上才是自己喜歡的。通過減去使用者對項的平均評分,修正的余弦相似性度量方法改善了以上問題。用幾表示使用者i和使用者j共同評分過的項集合,ii和壽分別表示使用者i和使用者j評分過的項集合,則使用者i和使用者j之間的相似性為:
③相關相似性(correlation)此方法是採用皮爾森(pearson)相關係數來進行度量。
摘自知乎:
除了上述的方法,根據文獻資料來看,spearman秩相關係數或者均方差也能用於計算使用者間的接近程度。
(資料探勘 入門 2)相似度衡量的方法
主要內容 1 距離度量 2 皮爾遜關係係數 3 cosine相似度 4 方法的選擇 距離度量是最簡單的衡量相似度的方法,公式如下 當r 1時,為曼哈頓距離 manhattan distance 當r 2時,為歐幾里得距離 euclidean distance 優點 簡單 缺點 當資料某些屬性或特徵缺...
相似度演算法之余弦相似度
余弦距離,也稱為余弦相似度,是用向量空間中兩個向量夾角的余弦值作為衡量兩個個體間差異的大小的度量。余弦值越接近1,就表明夾角越接近0度,也就是兩個向量越相似,這就叫 余弦相似性 上圖兩個向量a,b的夾角很小可以說a向量和b向量有很高的的相似性,極端情況下,a和b向量完全重合。如下圖 如上圖二 可以認...
相似度計算之余弦相似度
一 定義及概念 余弦取值範圍為 1,1 求得兩個向量的夾角,並得出夾角對應的余弦值,此余弦值就可以用來表徵這兩個向量的相似性。夾角越小,趨近於0度,余弦值越接近於1,它們的方向更加吻合,則越相似。當兩個向量的方向完全相反夾角余弦取最小值 1。當余弦值為0時,兩向量正交,夾角為90度。因此可以看出,余...