本文將介紹一些資料探勘、機器學習、資訊檢索等領域中常用的一些相似性、相關性度量指標:
(1)euclidean distance
(歐幾里德距離、歐氏距離)
設有兩個向量
它們之間的euclidean distance為:
(曼哈頓距離)
設有兩個向量
它們之間的manhattan
distance
為:
(3)minkowsk
distance
(閔可夫斯基
距離)
設有兩個向量
它們之間的minkowsk
distance
為:
(4)hamming
distance(海明
距離)hamming
distance可以用來度量兩個串(通常是二進位制串)的距離,其定義為這兩個二進位制串對應的位有幾個不一樣,那麼海明距離就是幾,值越小越相似。例如x=1010,y=1011,那麼x和y的海明距離就是1。又如x=1000,y=1111,那麼x和y的海明距離就是3。
(5)
jaccard
coefficient
(jaccard係數
)jaccard
coefficient用來度量兩個集合的相似度,設有兩個集合
coefficient定義為:
例如(6)pearson correlation coefficient
(皮爾森相關係數
)
設有兩個向量,
它們之間的
pearson correlation coefficient為:
(余弦相似度
)
設有兩個向量
它們之間的
cosine similarity
為:
(8)mahalanobis distance
(馬氏距離)
設有兩個向量
它們之間的
mahalanobis distance
為:其中
(9)kullback-leibler divergence
(kl散度)
kl散度用來度量兩個分布之間的距離,
分布p和分布q的
kl散度定義為:
(pointwise mutual information,點對互資訊)
pmi利用co-occurance來衡量兩個東西x和y的相似度,定義為:
其中(11)ngd(normalizedgoogle
distance)
ngd可以用來度量兩個東西x和y之間的相關性,作用和pmi有點類似,定義為:
其中
相似性度量
二元向量的相似性度量 每一維都少的資訊量,主要是0,1等有 or 沒有屬性 dice 2 x y x y 2保證 0,1 維數不一致時,差別大。jaccard x y x y 交疊程度小時,值較低 交疊係數 x y min 互相之間的包含性,1 cosine x y 根號 x y 對於實值 只有co...
相似性度量
一般而言,定義乙個距離函式d x,y 需要滿足以下幾個準則 1.d x,x 0 到自己的距離為0 2.d x,y 0 距離要非負 3.對稱性,d x,y d y,x 如果a到b距離是a,那麼b到a的距離也應該是a 4.三角形法則 兩個之和大於第三邊 d x,k d k,y d x,y 滿足這4個條件...
使用者相似性度量
pearsoncorrelationsimilarity 皮爾遜相關係數 原理 度量兩個意義對應數列之間的線性相關程度,即度量兩個數列中數字一起增大或一起減小的可能性。場景 用於度量兩個使用者之間的相似性,度量兩個使用者針對同一物品的偏好值變化趨勢的一致性。優點 結果直觀。缺點 沒有考慮到兩個使用者...