樣本間的距離或者相似度度量方法

2021-07-10 15:08:35 字數 1964 閱讀 5786

距離度量

距離度量(distance)用於衡量個體在空間上存在的距離,距離越遠說明個體間的差異越大。

一般而言,定義乙個距離函式 d(x,y), 需要滿足下面幾個準則:

1) d(x,x) = 0 

// 到自己的距離為0 

2) d(x,y) >= 0 

// 距離非負 

3) d(x,y) = d(y,x)

// 對稱性: 如果 a 到 b 距離是 a,那麼 b 到 a 的距離也應該是 a 

4) d(x,k) + d(k,y) >= d(x,y) // 三角形法則: (兩邊之和大於第三邊)

假設兩個樣本的特徵向量為:

一、歐氏距離

二、曼哈頓距離

三、閔可夫斯基距離

(1)當p=1時,即為曼哈頓距離

(2)當p=2時,即為歐氏距離

(3)當p趨向於無窮大時,即為切比雪夫距離

四、切比雪夫距離

相似度度量

相似度度量(similarity),即計算個體間的相似程度,與距離度量相反,相似度度量的值越小,說明個體間相似度越小,差異越大。

一、夾角余弦(cosine similarity)

即求兩個特徵向量的余弦值。文字分類或者聚類時,一般用夾角余弦求文字相似度。

二、皮爾森相關係數(pearson correlation coefficient)

即相關分析中的相關係數r,分別對x和y基於自身總體標準化後計算空間向量的余弦夾角。公式如下:

三、jaccard相似係數(jaccard coefficient)

jaccard係數主要用於計算符號度量或布林值度量的個體間的相似度,因為個體的特徵屬性都是由符號度量或者布林值標識,因此無法衡量差異具體值的大小,只能獲得「是否相同」這個結果,所以jaccard係數只關心個體間共同具有的特徵是否一致這個問題。如果比較x與y的jaccard相似係數,只比較xn和yn中相同的個數,公式如下:

調整余弦相似度(adjusted cosine similarity)

雖然余弦相似度對個體間存在的偏見可以進行一定的修正,但是因為只能分辨個體在維之間的差異,沒法衡量每個維數值的差異,會導致這樣乙個情況:比如使用者對內容評分,5分制,x和y兩個使用者對兩個內容的評分分別為(1,2)和(4,5),使用余弦相似度得出的結果是0.98,兩者極為相似,但從評分上看x似乎不喜歡這2個內容,而y比較喜歡,余弦相似度對數值的不敏感導致了結果的誤差,需要修正這種不合理性,就出現了調整余弦相似度,即所有維度上的數值都減去乙個均值,比如x和y的評分均值都是3,那麼調整後為(-2,-1)和(1,2),再用余弦相似度計算,得到-0.8,相似度為負值並且差異不小,但顯然更加符合現實。

資料標準化、歸一化處理

一、min-max標準化(min-max normalization)

也稱為離差標準化,是對原始資料的線性變換,使結果值對映到[0 - 1]之間。轉換函式如下:

其中max為樣本資料的最大值,min為樣本資料的最小值。這種方法有個缺陷就是當有新資料加入時,可能導致max和min的變化,需要重新定義。

二、z-score標準化方法

這種方法給予原始資料的均值(mean)和標準差(standard deviation)進行資料的標準化。經過處理的資料符合標準正態分佈,即均值為0,標準差為1,轉化函式為:

其中

距離和相似度度量

在資料分析和資料探勘的過程中,我們經常需要知道個體間差異的大小,進而評價個體的相似性和類別。最常見的是資料分析中的相關分析,資料探勘中的分 類和聚類演算法,如k最近鄰 knn 和k均值 k means 當然衡量個體差異的方法有很多,最近查閱了相關的資料,這裡整理羅列下。為了方便下面的解釋和舉例,先設...

距離和相似度度量

在資料分析和資料探勘的過程中,我們經常需要知道個體間差異的大小,進而評價個體的相似性和類別。最常見的是資料分析中的相關分析,資料探勘中的分類和聚類演算法,如k最近鄰 knn 和k均值 k means 當然衡量個體差異的方法有很多,最近查閱了相關的資料,這裡整理羅列下。為了方便下面的解釋和舉例,先設定...

距離和相似度度量

在資料分析和資料探勘的過程中,我們經常需要知道個體間差異的大小,進而評價個體的相似性和類別。最常見的是資料分析中的相關分析,資料探勘中的分類和聚類演算法,如k最近鄰 knn 和k均值 k means 當然衡量個體差異的方法有很多,最近查閱了相關的資料,這裡整理羅列下。為了方便下面的解釋和舉例,先設定...