相似性度量 機器學習距離公式總結

2022-07-18 07:51:15 字數 1483 閱讀 7881

所有距離公式列表:

嚴格意義上來看,閔可夫斯基距離不是一種距離,而是一組距離的定義。

兩個n維向量

a(x11,x12,...x1n)與

b(x2

1,x2

2,...x2

n)間的閔可夫斯基距離為:

其中p是乙個變引數

因此我們根據p引數的不同,閔可夫斯基距離可以表示一類距離。

歐式距離即l2範數,是歐式空間兩點間的距離公式,如圖

向量表示形式:

馬氏距離是在歐式距離上發展而來,有m個樣本向量x1 -xm,協方差矩陣為s,均值為向量μ,向量x到μ的馬氏距離為:

向量xi與向量xj的馬氏距離為:

若協方差矩陣是單位矩陣,則是歐式距離公式;若是對角矩陣,則為標準化歐式距離公式。

曼哈頓距離即l1範數,也稱為城市街區距離。

切比雪夫距離即

範數。等價公式為:

夾角余弦是用來衡量兩個向量方向上的差異,我們可以用來表示樣本向量間的差異。

或者:夾角余弦的取值範圍是【-1,1】。夾角余弦越大,表示兩個向量的夾角越小。當兩個向量重合時,同向,夾角余弦最大,為1,反向,夾角余弦最小,為-1.

漢明距離是定義兩個等長的字串s1與s2,將其中乙個變成另外乙個所需要的最小替換次數。例如:1111與1001之間的漢明距離為2.

傑卡德相似係數定義兩個集合a和b的交集元素在a,b集合的並集中所佔的比例。是用來衡量兩個集合相似度的一種指標。

傑卡德距離:用集合中不同元素佔所有元素的比例來衡量兩個集合的區分度。

距離和相似性度量

相似性度量或者距離函式對於像聚類,鄰域搜尋這樣的演算法是非常重要的。前面也提到,網頁去重複也是相似性應用的乙個例子。然而,如何定義個合適的相似或者距離函式,完全依賴於手頭的任務是什麼。一般而言,定義乙個距離函式d x,y 需要滿足以下幾個準則 1.d x,x 0 到自己的距離為0 2.d x,y 0...

相似性度量

二元向量的相似性度量 每一維都少的資訊量,主要是0,1等有 or 沒有屬性 dice 2 x y x y 2保證 0,1 維數不一致時,差別大。jaccard x y x y 交疊程度小時,值較低 交疊係數 x y min 互相之間的包含性,1 cosine x y 根號 x y 對於實值 只有co...

相似性度量

一般而言,定義乙個距離函式d x,y 需要滿足以下幾個準則 1.d x,x 0 到自己的距離為0 2.d x,y 0 距離要非負 3.對稱性,d x,y d y,x 如果a到b距離是a,那麼b到a的距離也應該是a 4.三角形法則 兩個之和大於第三邊 d x,k d k,y d x,y 滿足這4個條件...