cov(x,y)=exy-ex*ey
協方差的定義,ex為隨機變數x的數學期望,同理,exy是xy的數學期望
舉例:xi 1.1 1.9 3
yi 5.0 10.4 14.6
e(x) = (1.1+1.9+3)/3=2
e(y) = (5.0+10.4+14.6)/3=10
e(xy)=(1.1×5.0+1.9×10.4+3×14.6)/3=23.02
cov(x,y)=e(xy)-e(x)e(y)=23.02-2×10=3.02
此外:還可以計算:d(x)=e(x^2)-e^2(x)=(1.1^2+1.9^2+3^2)/3 - 4=4.60-4=0.606 σx=0.778888
d(y)=e(y^2)-e^2(y)=(5^2+10.4^2+14.6^2)/3-100=15.44 σy=3.93
r(x,y)=cov(x,y)/(σxσy)=3.02/(0.778888×3.93) = 0.986
表明這組資料x,y之間相關性很好!
補充:計算協方差矩陣
如計算矩陣 1 2 3
10 20 30 的協方差矩陣。
計算結果為:
40.5000 81.0000 121.5000
81.0000 162.0000 243.0000
121.5000 243.0000 364.5000
通常,在提到協方差的時候,需要對其進一步區分。(1)隨機變數的協方差。跟數學期望、方差一樣,是分布的乙個總體引數。(2)樣本的協方差。是樣本集的乙個統計量,可作為聯合分布總體引數的乙個估計。在實際中計算的通常是樣本的協方差。
在概率論和統計中,協方差是對兩個隨機變數聯合分布線性相關程度的一種度量。兩個隨機變數越線性相關,協方差越大,完全線性無關,協方差為零。定義如下。
cov(x,y)=e[(x−e[x])(y−e[y])]
當x,y是同乙個隨機變數時,x與其自身的協方差就是x的方差,可以說方差是協方差的乙個特例。
cov(x,x)=e[(x−e[x])(x−e[x])]
或var(x)=cov(x,x)=e[(x−e[x])2]
由於隨機變數的取值範圍不同,兩個協方差不具備可比性。如x,y,z分別是三個隨機變數,想要比較x與y的線性相關程度強,還是x與z的線性相關程度強,通過cov(x,y)與cov(x,z)無法直接比較。定義相關係數η為
通過x的方差var(x)與y的方差var(y)對協方差cov(x,y)歸一化,得到相關係數η,η的取值範圍是[−1,1]。1表示完全線性相關,−1表示完全線性負相關,0表示線性無關。線性無關並不代表完全無關,更不代表相互獨立。
在實際中,通常我們手頭會有一些樣本,樣本有多個屬性,每個樣本可以看成乙個多維隨機變數的樣本點,我們需要分析兩個維度之間的線性關係。協方差及相關係數是度量隨機變數間線性關係的引數,由於不知道具體的分布,只能通過樣本來進行估計。
設樣本對應的多維隨機變數為x=[x1,x2,x3,...,xn]tx=[x1,x2,x3,...,xn]t,樣本集合為,m為樣本數量。與樣本方差的計算相似,a和b兩個維度樣本的協方差公式為,其中1⩽a⩽n,1⩽b⩽n,n為樣本維度
這裡分母為m−1m−1是因為隨機變數的數學期望未知,以樣本均值代替,自由度減一。
詳解協方差與協方差矩陣計算
協方差的定義 對於一般的分布,直接代入e x 之類的就可以計算出來了,但真給你乙個具體數值的分布,要計算協方差矩陣,根據這個公式來計算,還真不容易反應過來。網上值得參考的資料也不多,這裡用乙個例子說明協方差矩陣是怎麼計算出來的吧。記住,x y 是乙個列向量,它表示了每種情況下每個樣本可能出現的數。比...
協方差 協方差矩陣
期望 離散型隨機變數的一切可能的取值xi與對應的概率pi xi 之積的和稱為該離散型隨機變數的數學期望 設級數絕對收斂 記為 e x 隨機變數最基本的數學特徵之一。它反映隨機變數平均取值的大小。又稱期望或均值。求法 設離散型隨機變數x的取值為 方差 方差是各個資料與平均數之差的平方的平均數。在概率論...
期望 方差 協方差 協方差矩陣
方差pearson相關係數 協方差矩陣與相關係數矩陣 我們將隨機實驗e的一切可能基本結果 或實驗過程如取法或分配法 組成的集合稱為e的樣本空間,記為s。樣本空間的元素,即e的每乙個可能的結果,稱為樣本點。這樣思考一下,如果某個資料集x xx滿足它是某個分布的隨機取樣,那麼在取樣過程中最可能出現的值是...