都單位向量化後,再化簡後就是:兩者在歸一化為單位向量的時候計算相似度結果完全一樣。只不過余弦相似度是值越大月相似,歐式距離是值越小越相似
歐氏距離能夠體現個體數值特徵的絕對差異,所以更多的用於需要從維度的數值大小中體現差異的分析,如使用使用者行為指標分析使用者價值的相似度或差異。主要在乎的是值
余弦距離更多的是從方向上區分差異,而對絕對的數值不敏感,更多的用於使用使用者對內容評分來區分興趣的相似度和差異,同時修正了使用者間可能存在的度量標準不統一的問題(因為余弦距離對絕對數值不敏感)。主要在乎的是方向
歌手大賽,三個評委給三個歌手打分,第乙個評委的打分(10,8,9), 第二個評委的打分(4,2,3),第三個評委的打分(8,10,9),如果採用余弦相似度來看每個評委的差異,雖然每個評委對同乙個選手的評分不一樣,但第
一、第二兩個評委對這三位歌手實力的排序是一樣的,只是第二個評委對滿分有更高的評判標準,說明第
一、第二個評委對**的品味上是一致的。
因此,用余弦相似度來看,第
一、第二個評委為一類人,第三個評委為另外一類。
如果採用歐氏距離, 第一和第三個評委的歐氏距離更近,就分成一類人了,但其實不太合理,因為他們對於三位選手的排名都是完全顛倒的
余弦相似度和歐式距離的區別
余弦相似度 cos left right frac 2 2 frac n times right n right 2 times sqrt n right 2 歐式距離 dist left right right 2 sqrt n right 2 如果對向量模長進行歸一化,歐式距離和余弦相似度有如下...
歐氏距離和余弦相似度
兩者相同的地方,就是在機器學習中都可以用來計算相似度,但是兩者的含義有很大差別,以我的理解就是 前者是看成座標系中兩個點,來計算兩點之間的距離 後者是看成座標系中兩個向量,來計算兩向量之間的夾角。前者因為是點,所以一般指位置上的差別,即距離 後者因為是向量,所以一般指方向上的差別,即所成夾角。如下圖...
歐氏距離和余弦相似度
參考自 歐氏距離與余弦相似度 歐氏距離和余弦相似度 在資料分析和資料探勘的過程中,我們經常需要知道個體間差異的大小,進而評價個體的相似性和類別。最常見的是資料分析中的相關分析,資料探勘中的分類和聚類演算法,如k最近鄰 knn 和k均值 k means 來衡量兩者的差異的方法,主要分為距離度量和相似度...