馬氏距離的計算是建立在總體樣本的基礎上的,這一點可以從協方差矩陣的解釋中可以得出,也就是說,如果拿同樣的兩個樣本,放入兩個不同的總體中,最後計算得出的兩個樣本間的馬氏距離通常是不相同的,除非這兩個總體的協方差矩陣碰巧相同;
在計算馬氏距離過程中,要求總體樣本數大於樣本的維數,否則得到的總體樣本協方差矩陣逆矩陣不存在,這種情況下,用歐氏距離計算即可;
還有一種情況,滿足了條件總體樣本數大於樣本的維數,但是協方差矩陣的逆矩陣仍然不存在,比如三個樣本點(3,4),(5,6)和(7,8),這種情況是因為這三個樣本在其所處的二維空間平面內共線。這種情況下,也採用歐氏距離計算;
在實際應用中「總體樣本數大於樣本的維數」這個條件是很容易滿足的,而所有樣本點出現上面3中所描述的情況是很少出現的,所以在絕大多數情況下,馬氏距離是可以順利計算的,但是馬氏距離的計算是不穩定的,不穩定的**是協方差矩陣,這也是馬氏距離與歐氏距離的最大差異之處。
優點:不受量綱的影響,兩點之間的馬氏距離與原始資料的測量單位無關,由標準化資料和中心化資料(即原始資料與均值之差)計算出的二點之間的馬氏距離相同。馬氏距離還可以排除變數之間的相關性的干擾。
缺點:誇大了變化微小的變數的作用。
馬氏距離
歐式距離
馬氏距離與歐式距離
1 歐式距離 2 標準歐式距離 3 馬氏距離 4 測試 構造資料,構建乙個長軸為2短軸為1的橢圓 測試兩個點到質心的距離綠色的點x1 1,0 和黃色的點x2 0,0.8 通過計算歐式距離發現x2距離質心更近一些,但是計算馬氏距離和標準歐式距離卻又是x1距離的更近些 很直接的原因就是長軸的方差比較大,...
歐式距離 標準化歐式距離 馬氏距離 余弦距離
標準化歐氏距離 馬氏距離 夾角余弦距離 漢明距離 曼哈頓 manhattan 距離1,x2x1,x2 間的距離公式 ixi 的各個維度之間的尺度不一樣。對於尺度無關的解釋 如果向量中第一維元素的數量級是100,第二維的數量級是10,比如v1 100,10,30 v2 500,40 則計算歐式距離 2...
距離度量之馬氏距離
用來度量乙個樣本點 與資料分布為 的集合的距離。假設樣本點為 資料集分布的均值為 協方差矩陣為 則這個樣本點 與資料集合的馬氏距離為 馬氏距離也可以衡量兩個來自同一分布的樣本x和y的相似性 當樣本集合的協方差矩陣是單位矩陣時,即樣本的各個維度上的方差均為 馬氏距離就等於歐式距離相等。當協方差矩陣是對...