在機器學習中,距離是乙個非常形象並且常用的概念。在分類和聚類問題中,距離的作用尤為明顯。除此之外,在回歸問題,甚至自然語言處理問題上,距離也有其相應的應用。
除了距離之外,相似係數也是解決這一問題的方法之一,顯而易見,距離和相似係數應該呈反比,距離越小越相似;距離越大越不同。距離主要是對不同的觀測進行度量,相似係數主要是對不同的變數進行度量。但是,距離也可以衡量不同的變數,同理,相似係數也可以衡量不同的觀測。
本文將介紹距離的定義,並詳細介紹兩種非常常用的距離:明可夫斯基距離和馬氏距離。在後文中,我們將介紹相似係數。
設兩個n維向量x⃗=
(x1,
x2,⋯
,xn)
t\vec = (x_1,x_2,\cdots,x_n)^t
x=(x1
,x2
,⋯,x
n)t
和y ⃗=
(y1,
y2,⋯
,yn)
t\vec = (y_1,y_2,\cdots,y_n)^t
y=(y1
,y2
,⋯,
yn)
t為兩個觀測,其所定義的距離一般需要滿足三個條件:
非負性:d(x
⃗,y⃗
)≥
0d(\vec,\vec) ≥ 0
d(x,y
)≥0,d(x
⃗,y⃗
)=
0d(\vec,\vec) = 0
d(x,y
)=0當且僅當x⃗=
y⃗
\vec = \vec
x=y
對稱性:d(x
⃗,y⃗
)=d(
y⃗,x
⃗)
d(\vec,\vec) = d(\vec,\vec)
d(x,y
)=d(
y,x
)三角不等式:假設存在另乙個n維向量z
⃗\vec
z,d(x⃗
,y⃗)
≤d(x
⃗,z⃗
)+d(
z⃗,y
⃗)
d(\vec,\vec) ≤ d(\vec,\vec) + d(\vec,\vec)
d(x,y
)≤d(
x,z)
+d(z
,y)
明可夫斯基距離是一類距離的總稱。向量x
⃗\vec
x和y⃗
\vec
y之間的明可夫斯基距離定義為:
d (x
⃗,y⃗
)=[∑
i=1n
∣xi−
yi∣q
]1
qd(\vec,\vec) = [\sum_^|x_i-y_i|^q]^ }
d(x,y
)=[i
=1∑n
∣xi
−yi
∣q]
q1其中q
>
0q>0
q>0。
明可夫斯基距離有三種特殊且常見的形式:
當q =1
q=1q=
1時,d(x
⃗,y⃗
)=∑i
=1n∣
xi−y
i∣
d(\vec,\vec) = \sum_^|x_i-y_i|
d(x,y
)=∑i
=1n
∣xi
−yi
∣,稱為絕對值距離,也被稱為曼哈頓距離。
當q =2
q=2q=
2時,d(x
⃗,y⃗
)=[∑
i=1n
∣xi−
yi∣]
12=(
x⃗−y
⃗)t(
x⃗−y
⃗)
d(\vec,\vec) = [\sum_^|x_i-y_i|]^\frac = \sqrt-\vec)^t(\vec-\vec)}
d(x,y
)=[∑
i=1n
∣xi
−yi
∣]2
1=(
x−y
)t(x
−y)
,稱為歐式距離,也是最常用的一種距離。
當q =∞
q = \infty
q=∞,d(x
⃗,y⃗
)=ma
x1
<
i xi−y i∣ d(\vec,\vec) = max_ x和y⃗ \vec y之間的馬氏距離定義為: d (x ⃗,y⃗ )=(x ⃗−y⃗ )ts− 1(x⃗ −y⃗) d(\vec,\vec) = \sqrt-\vec)^ts^(\vec-\vec)} d(x,y )=(x −y) ts−1 (x−y )其中,s ss代表x ⃗\vec x、y⃗ \vec y的協方差矩陣。 使用馬氏距離最大的好處在於避免了單位不同以及資料變異程度的不同對計算造成的影響。 但是,馬氏距離也有自己的缺點,協方差矩陣的計算在大規模資料中是困難的。尤其在聚類問題中,每乙個類別中的觀測都在不停變化導致協方差矩陣也在變化。 歐式距離是最常見的距離度量,衡量的是多維空間中各個點之間的絕對距離。公式如下 明氏距離是歐式距離的推廣,是對多個距離度量公式的概括性的表述。公式如下 這裡的p值是乙個變數,當p 2的時候就得到了上面的歐式距離,當p為時為曼哈頓距離,當p 時為切比雪夫距離。曼哈頓距離 於城市區塊距離,是將多個維度上的... 用來度量乙個樣本點 與資料分布為 的集合的距離。假設樣本點為 資料集分布的均值為 協方差矩陣為 則這個樣本點 與資料集合的馬氏距離為 馬氏距離也可以衡量兩個來自同一分布的樣本x和y的相似性 當樣本集合的協方差矩陣是單位矩陣時,即樣本的各個維度上的方差均為 馬氏距離就等於歐式距離相等。當協方差矩陣是對... 用來度量乙個樣本點 與資料分布為 的集合的距離。假設樣本點為 資料集分布的均值為 協方差矩陣為 則這個樣本點 與資料集合的馬氏距離為 馬氏距離也可以衡量兩個來自同一分布的樣本x和y的相似性 當樣本集合的協方差矩陣是單位矩陣時,即樣本的各個維度上的方差均為 馬氏距離就等於歐式距離相等。當協方差矩陣是對...歐式距離 明可夫斯基距離及其他計算曲線相似度的距離
距離度量之馬氏距離
距離度量之馬氏距離