方差和標準差衡量的是乙個變數(一組資料)的離散程度,也就是變數和均值之間的偏離程度。
正相關:兩個變數具有相同的變化趨勢(也稱同方向),要麼同時變大,要麼同時變小,這時協方差是正的;
負相關:兩個變數具有相反的變化趨勢(也稱反方向),乙個變大,另乙個變小,這時協方差是負的;
協方差描述的是兩個變數是否同時偏離期望值(或均值),偏離的方向相同就是正相關,偏離的方向相反就是負相關。
方差是協方差的一種特殊情況,也就是兩個變數完全相同。
協方差的公式定義,期望值(或均值)分別為 e[x] 與 e[y] 的兩個實隨機變數 x 與 y 之間的協方差cov(x, y)定義為:
例子:變數a有5個值 [5, 10, 6, 15, 2],變數b有5個值 [6, 9, 7, 10, 3],兩個變數的協方差計算如下:
e[a] = (5 + 10 + 6 + 15 + 2) / 5 = 7.6
e[b] = (6 + 9 + 7 + 10 + 3) / 5 = 7
a - e[a] = [ -2.6 , 2.4 , -1.6 , 7.4, -5.6 ]
b - e[b] = [ -1 , 2 , 0 , 3, -4 ]
(a - e[a]) * (b - e[b]) = [ -2.6 , 2.4 , -1.6 , 7.4, -5.6 ] * [ -1 , 2 , 0 , 3, -4 ] = 52
cov(a, b) = e[(a - e[a]) * (b - e[b])] = 52 / 5 = 10.4
可以看出a和b是正相關關係,但是具體正相關的程度是多少,從協方差中是看不出來的。
如果a和b的量綱(單位)一樣,用協方差表示的相關程度還有點作用,但是如果兩個變數採用不同的量綱,它們的協方差在數值上具有很大的差異,這就不能用來表示相關程度了。這需要另外乙個知識:相關係數。
如圖:
ρab= 10.4 / (
4.49 *
2.44
) = 0.94
看出a和b是正相關關係,且a和b具有較大的相關程度。
即使兩個變數具有不同量綱,但是它們的 pearson 相關係數始終在[-1, 1]之間,這樣就有利於判斷兩個變數的相關程度了。
相關係數矩陣計算 期望 方差 協方差 相關係數
第一部分 理論部分 注 對以上的擴充套件涉及到矩 協方差矩陣 第二部分 實驗部分 編譯器 python 3.6 作 者 寒木雅 計算樣本期望 均值 方差 標準差 協方差 相關係數import numpy as np 生成隨機樣本x,yx np.random.randint 0,10,100 y np...
期望 方差 協方差 相關係數
一 期望 在概率論和統計學中,數學期望 或均值,亦簡稱期望 是試驗中每次可能結果的概率乘以其結果的總和。它反映隨機變數平均取值的大小。線性運算 推廣形式 函式期望 設f x 為x的函式,則f x 的期望為 離散函式 連續函式 注意 函式的期望不等於期望的函式 一般情況下,乘積的期望不等於期望的乘積 ...
方差 協方差 相關係數的理解
協方差對於變數x y,協方差的定義為每個時刻的 x值與其均值之差 乘以 y值與其均值之差 的均值 其實是求 期望 因此,如果x與x的均值差與y與y的均值差的符號相同,則協方差值大於0,符號相反,則協方差值小於0,總結如下 圖2 圖3 圖4 解釋一 x 越大 y 也越大,x 越小 y 也越小,這種情況...