參考這篇文章考慮質心問題:
歐式距離和余弦相似度的關係
歐氏距離能夠體現個體數值特徵的絕對差異,所以更多的用於需要從維度的數值大小中體現差異的分析,如使用使用者行為指標分析使用者價值的相似度或差異。
余弦距離更多的是從方向上區分差異,而對絕對的數值不敏感,更多的用於使用使用者對內容評分來區分興趣的相似度和差異,同時修正了使用者間可能存在的度量標準不統一的問題(因為余弦距離對絕對數值不敏感)。原文
sklearn的模組簡介
計算兩個點之間的歐氏距離:
import numpy as np
def ed(m, n):
return np.sqrt(np.sum((m - n) ** 2))
i = np.array([1, 1])
j = np.array([3, 3])
distance = ed(i, j)
print(distance)
計算乙個點到其他所有點的距離值之和:
# airportposition是矩陣中的某乙個點
# x_vals是矩陣中所有的點
distances = np.sqrt(np.sum(np.asarray(airportposition - x_vals)**2, axis=1))
distances是某乙個點到所有點的距離矩陣
來自指令碼之家
歐式距離 標準化歐式距離 馬氏距離 余弦距離
標準化歐氏距離 馬氏距離 夾角余弦距離 漢明距離 曼哈頓 manhattan 距離1,x2x1,x2 間的距離公式 ixi 的各個維度之間的尺度不一樣。對於尺度無關的解釋 如果向量中第一維元素的數量級是100,第二維的數量級是10,比如v1 100,10,30 v2 500,40 則計算歐式距離 2...
歐式距離 和 余弦相似度
都單位向量化後,再化簡後就是 兩者在歸一化為單位向量的時候計算相似度結果完全一樣。只不過余弦相似度是值越大月相似,歐式距離是值越小越相似 歐氏距離能夠體現個體數值特徵的絕對差異,所以更多的用於需要從維度的數值大小中體現差異的分析,如使用使用者行為指標分析使用者價值的相似度或差異。主要在乎的是值 余弦...
數學基礎之曼哈頓距離,歐式距離,余弦距離
曼哈頓距離,歐式距離,余弦距離 1.曼哈頓距離 曼哈頓距離又稱馬氏距離 manhattan distance 還見到過更加形象的,叫計程車距離的。具見上圖黃線,應該就能明白。計算距離最簡單的方法是曼哈頓距離。假設,先考慮二維情況,只有兩個樂隊 x 和 y,使用者a的評價為 x1,y1 使用者b的評價...