兩者都是評定個體間差異的大小的。歐幾里得距離度量會受指標不同單位刻度的影響,所以一般需要先進行標準化,同時距離越大,個體間差異越大;
空間向量余弦夾角的相似度度量不會受指標刻度的影響,余弦值落於區間[-1,1],值越大,差異越小。
歐氏距離(也叫歐幾里得距離)公式:
余弦相似度的計算公式如下:
一般來說,為了比較的方便,都會對得到的結果進行歸一化處理:
1)在歐氏距離公式中,取值範圍會很大,一般通過如下方式歸一化:
sim = 1 / (1 + dist(x,y))
2)因為余弦值的範圍是 [-1,+1] ,相似度計算時一般需要把值歸一化到 [0,1],一般通過如下方式:
sim = 0.5 + 0.5 * cosθ
經過歸一化處理以後,相似度全部落在了0和1之間,值越大,相似度越高。
選擇哪種度量方式,沒有統一的結論,要依據處理資料的特點來進行確定,可以參考一下知乎上關於這個問題的討論:
這個也是具體情況具體分析的,看你關注的是絕對距離還是相對距離啦。歸根結底是個相異度的問題,也就是說你說乙個大的**和乙個小的**相異麼?雖然**的內容一樣。你要用歐氏距離,那差別就大了,要是用余弦夾角就小啦
歐氏距離和余弦相似度
兩者相同的地方,就是在機器學習中都可以用來計算相似度,但是兩者的含義有很大差別,以我的理解就是 前者是看成座標系中兩個點,來計算兩點之間的距離 後者是看成座標系中兩個向量,來計算兩向量之間的夾角。前者因為是點,所以一般指位置上的差別,即距離 後者因為是向量,所以一般指方向上的差別,即所成夾角。如下圖...
歐氏距離和余弦相似度
參考自 歐氏距離與余弦相似度 歐氏距離和余弦相似度 在資料分析和資料探勘的過程中,我們經常需要知道個體間差異的大小,進而評價個體的相似性和類別。最常見的是資料分析中的相關分析,資料探勘中的分類和聚類演算法,如k最近鄰 knn 和k均值 k means 來衡量兩者的差異的方法,主要分為距離度量和相似度...
歐氏距離和余弦相似度
兩者相同的地方,就是在機器學習中都可以用來計算相似度,但是兩者的含義有很大差別,以我的理解就是 前者是看成座標系中兩個點,來計算兩點之間的距離 後者是看成座標系中兩個向量,來計算兩向量之間的夾角。前者因為是點,所以一般指位置上的差別,即距離 後者因為是向量,所以一般指方向上的差別,即所成夾角。如下圖...