協方差 協方差矩陣 馬氏距離與歐式距離的理解

2021-10-07 11:24:57 字數 3111 閱讀 7699

協方差、協方差矩陣、馬氏距離與歐式距離的理解

最近在應用中,總涉及到對馬氏距離的使用,而馬氏距離中最重要的是協方差矩陣的計算,這些概念困擾了我很久,在查閱資料學習了解後,終於有淺顯理解,做了個筆記與大家分享,才疏學淺,若理解有誤歡迎批評指正。

一、 方差、協方差、協方差矩陣的概念

在統計學中,方差是單個樣本集中,每個樣本值與全體樣本值的平均數之差的平均值的平均數,反應的是一維陣列的離散程度。這裡的樣本集也可以換成隨機變數,隨機變數如果是離散的則表示為樣本集,如果是連續的則可表示成連續變數,所以方差也稱為度量單個隨機變數的離散程度的物理量,計算公式如下:

var(x)= e[(x−e[x])2](連續變數)

在概率論和統計中,協方差是對兩個隨機變數聯合分布線性相關程度的一種度量。兩個隨機變數越線性相關,協方差越大,完全線性無關,協方差為零。定義如下:

cov(x,y)=e[(x−e[x])(y−e[y])]

當x,y是同乙個隨機變數時,x與其自身的協方差就是x的方差,可以說方差是協方差的乙個特例。

cov(x,x)=e[(x−e[x])(x−e[x])]

或var(x)=cov(x,x)=e[(x−e[x])2]

由於隨機變數的取值範圍不同,兩個協方差不具備可比性。如x,y,z分別是三個隨機變數,想要比較x與y的線性相關程度強,還是x與z的線性相關程度強,通過cov(x,y)與cov⁡(x,z)無法直接比較。定義相關係數η為:

相關係數可以理解成歸一化的協方差,將協方差歸一化到[-1,1]的區間範圍內。這樣兩協方差直接可以直接比較大小了。

需要注意的是,在實際應用中,變數往往是一些樣本組成的離散點集,那麼此時樣本集的協方差(離散變數的協方差)是樣本集的乙個統計量,計算公式如下:

cov(x,y)=1/(m-1) ∑_(i=1)^m▒〖(x_i-x ̅)(y_i-y ̅)〗

其中m是表示樣本數,x,y是具有相同樣本數的兩個變數。協方差永遠是計算的兩個變數之間的協方差。

當變數數大於等於兩個,任意兩個變數之間的協方差組成的矩陣就是協方差矩陣,對於n維隨機變數x=〖[x_1,x_2,⋯x_n]〗^t,其協方差矩陣為n×n維的矩陣σ。

很顯然,協方差矩陣是對稱陣,對角線位置表示每個變數的方差。

同樣的,以上表示形式是連續變數的協方差計算公式,如果變數是離散的即樣本集的形式,則離散隨機變數(樣本集)x表示為n×m的矩陣,如下:

x=〖[x_1,x_2,⋯x_n]〗^t, x_i=[x_i1,x_i2,⋯x_im]

則協方差矩陣σ ̂計算公式如下:

二、協方差、協方差矩陣的計算

在實際計算時,大多是針對樣本集的協方差計算。

首先我們分清幾個概念,樣本、變數、維度、屬性等。樣本往往都需要多個屬性來描述,每個樣本都可以看成乙個多維隨機變數的樣本點。也就是說乙個變數和乙個屬性、乙個屬性說的是乙個概念。同一變數中所有樣本表示同一屬性,具有同一物理意義與單位。同一變數中所有樣本表示同一屬性,具有同一物理意義與單位。在計算協方差的時候,一定要分清哪個維度是樣本、哪個維度是變數。協方差是計算變數之間的協方差,而非對樣本計算,所以協方差矩陣的大小與變數數相同。

樣本集:x=〖[x_1,x_2,⋯x_n]〗^t=[■(x_11&⋯&x_1m@⋮&⋱&⋮@x_n1&⋯&x_nm )]

每一行表示乙個變數,每一列表示乙個樣本,n個變數,m個樣本。

計算協方差的時候就按照上述公式計算即可,也就是變數減去樣本均值與另外乙個變數減去樣本均值之積的均值。

三、馬氏距離與歐式距離的概念

不管是馬氏距離還是歐式距離,都是用來表徵樣本與樣本之間的距離大小的統計表徵量。請注意與協方差不同的是,此刻是樣本與樣本之間的計算。

歐式距離的定義公式如下:

馬氏距離定義就複雜點了,它是一種有效的計算兩個未知樣本的相似度的方法。在計算馬氏距離前,首先要對多維變數或樣本集計算出協方差矩陣,然後就可以計算兩個樣本點的馬氏距離,也可以計算樣本與樣本集的馬氏距離,也可以計算乙個樣本集本身的馬氏距離。詳細看下面兩張圖:

後者圖中第乙個公式就是計算樣本集本身的馬氏距離,第二個公式就是計算兩個樣本之間的馬氏距離,協方差矩陣前後的兩個向量是一樣的,只不過做了個轉置。個人理解,如果想做樣本到樣本集的馬氏距離,則可把y換成某個樣本集的矩陣向量。

此刻,思考個問題,要計算的樣本或樣本集服不服從計算協方差矩陣的變數分別呢?或者說計算協方差矩陣的樣本集包含要計算馬氏距離的樣本或樣本集嗎?

四、 對馬氏距離的物理意義**自bluesliuf)

馬氏距離有很多優點: 馬氏距離不受量綱的影響,兩點之間的馬氏距離與原始資料的測量單位無關;由標準化資料和中心化資料(即原始資料與均值之差)計算出的二點之間的馬氏距離相同。馬氏距離還可以排除變數之間的相關性的干擾。

下面我們來看乙個例子:

如果我們以厘公尺為單位來測量人的身高,以克(g)為單位測量人的體重。每個人被表示為乙個兩維向量,如乙個人身高173cm,體重50000g,表示為(173,50000),根據身高體重的資訊來判斷體型的相似程度。

我們已知小明(160,60000);小王(160,59000);小李(170,60000)。根據常識可以知道小明和小王體型相似。但是如果根據歐幾里得距離來判斷,小明和小王的距離要遠遠大於小明和小李之間的距離,即小明和小李體型相似。這是因為不同特徵的度量標準之間存在差異而導致判斷出錯。

以克(g)為單位測量人的體重,資料分布比較分散,即方差大,而以厘公尺為單位來測量人的身高,資料分布就相對集中,方差小。馬氏距離的目的就是把方差歸一化,使得特徵之間的關係更加符合實際情況。

協方差 協方差矩陣

期望 離散型隨機變數的一切可能的取值xi與對應的概率pi xi 之積的和稱為該離散型隨機變數的數學期望 設級數絕對收斂 記為 e x 隨機變數最基本的數學特徵之一。它反映隨機變數平均取值的大小。又稱期望或均值。求法 設離散型隨機變數x的取值為 方差 方差是各個資料與平均數之差的平方的平均數。在概率論...

期望 方差 協方差 協方差矩陣

方差pearson相關係數 協方差矩陣與相關係數矩陣 我們將隨機實驗e的一切可能基本結果 或實驗過程如取法或分配法 組成的集合稱為e的樣本空間,記為s。樣本空間的元素,即e的每乙個可能的結果,稱為樣本點。這樣思考一下,如果某個資料集x xx滿足它是某個分布的隨機取樣,那麼在取樣過程中最可能出現的值是...

詳解協方差與協方差矩陣

協方差的定義 對於一般的分布,直接代入 e x 之類的就可以計算出來了,但真給你乙個具體數值的分布,要計算協方差矩陣,根據這個公式來計算,還真不容易反應過來。網上值得參考的資料也不多,這裡用乙個例子說明協方差矩陣是怎麼計算出來的吧。記住,x y 是乙個列向量,它表示了每種情況下每個樣本可能出現的數。...