【引入】
對於二維隨機變數 $(x,y)$ ,我們除了討論 $x$ 與 $y$ 的數學期望和方差除外,
還需要討論描述 $x$ 與 $y$ 之間相互關係的數字特徵。
在《數字特徵:方差》方差性質3的證明中,我們已經看到,
如果兩個隨機變數 $x$ 與 $y$ 是相互獨立的,則 $e\ =0$
這意味著當 $e\ \neq 0$ 時, $x$ 與 $y$ 不相互獨立,而是存在一定的關係的。
【定義】
量 $e\$ 稱為隨機變數 $x$ 與 $y$ 的協方差,記為 $cov(x,y)$
即$$cov(x,y)=e\$$
而$$\rho_=\frac\sqrt}$$
稱為隨機變數 $x$ 與 $y$的相關係數
由定義,即知
$$cov(x,y)=cov(y,x),\quad cov(x,x)=d(x)$$
由上述定義及(2.5)式知道,對於任意兩個隨機變數 $x$ 與 $y$ ,下列等式成立
$$d(x+y)=d(x)+d(y)+2cov(x,y)\tag$$
將 $coc(x,y)$ 的定義式展開,易得
$$cov(x,y)=e(xy)-e(x)e(y)\tag$$
我們常常用這一式子計算協方差。
協方差的性質
1. $cov(ax,by)=abcov(x,y),a,b是常數$
2. $cov(x_1+x_2,y)=cov(x_1,y)+cov(x_2,y)$
$\rho_$ 的兩條重要性質
考慮以 $x$ 的線性函式 $a+bx$ 來近似表示 $y$ 。
我們以均方誤差
$$e=e[(y-(a+bx))^2]\qquad \qquad \qquad \qquad \qquad \qquad \qquad \qquad \quad \ $$
$$=e(y^2)+b^2e(x^2)+a^2-2be(xy)+2abe(x)-2ae(y)\tag$$
來衡量以 $a+bx$ 近似表達 $y$ 的好壞程度。
$e$ 的值越小表示 $a+bx$ 與 $y$ 的近似程度越好。
這樣,我們就取 $a,b$ 使 $e$ 取到最小。
下面就來求最佳近似式 $a+bx$ 中的 $a,b$ 。為此,將 $e$ 分別關於 $a,b$ 求偏導數,並令它們等於零,得
$$\begin\frac=2a+2be(x)-2e(y)=0,\\ \frac=2be(x^2)-2e(xy)+2ae(x)=0\end$$
解得$$b_0=\frac$$
$$a_0=e(y)-b_0e(x)=e(y)-e(x)\frac$$
將 $a_0,b_0$ 帶入(3.3)式得
$$\min_e\=e\=(1-\rho_^)d(y)\tag$$
由(3.4)式容易得到下述定理:
【定理】
1. $|\rho_|\leq 1$
2. $|\rho_|=1$ 的充要條件是,存在常數 $a,b$ 使 $p\=1$
證:(省略,日後再補)
$\rho_$ 的含義
由(3.4)知,均方誤差 $e$ 是 $|\rho_|$ 的嚴格單調減少函式,這樣 $\rho_$ 的含義就很明顯了。
當 $|\rho_|$ 較大時 $e$ 較小,表明 $x,y$ (就線性關係來說)聯絡較緊密。
特別當 $|\rho_|=1$ 時,由定理中的2,$x,y$ 以概率1存在著線性關係。
於是 $\rho_$ 是乙個可以用來表徵 $x,y$ 之間的線性關係緊密程度的量。
當 $|\rho_|$ 較大時,我們通常說 $x,y$ 線性相關的程度較好;
當 $|\rho_|$ 較小時,我們說,$x,y$ 線性相關的程度較差。
當 $|\rho_|=0$ 時,稱 $x,y$ 不相關。
相關與相互獨立的關係
假設隨機變數 $x,y$ 的相關係數 $\rho_$ 存在。
當 $x$ 和 $y$ 相互獨立時,由數學期望的性質4及(3.2)式知 $cov(x,y)=0$ ,從而 $\rho_=0$ ,即 $x,y$ 不相關。
反之,若 $x,y$ 不相關,$x$ 和 $y$ 卻不一定相互獨立(見【例1】)。
上述情況,從「不相關」和「相互獨立」的含義來看是明顯的,這是因為不相關只是就線性關係來說的,而相互獨立是就一般關係而言的。
不過從【例2】可以看到,當 $(x,y)$ 服從二維正態分佈時,$x$ 和 $y$ 不相關與 $x$ 和 $y$ 相互獨立是等價的。
【例1】
設 $(x,y)$ 的分布律為
y\x-2-21
2$p\$10
1/41/4
01/2
41/400
1/41/2
$p\$
1/41/4
1/41/4
1易知 $e(x)=0,e(y)=5/2,e(xy)=0$ ,於是 $\rho_=0,x,y$不相關。
事實上,$x$ 和 $y$ 具有關係:$y=x^2$ ,$y$ 的值完全可由 $x$ 的值所確定。
【例2】二維正態分佈
期望 方差 協方差 相關係數
一 期望 在概率論和統計學中,數學期望 或均值,亦簡稱期望 是試驗中每次可能結果的概率乘以其結果的總和。它反映隨機變數平均取值的大小。線性運算 推廣形式 函式期望 設f x 為x的函式,則f x 的期望為 離散函式 連續函式 注意 函式的期望不等於期望的函式 一般情況下,乘積的期望不等於期望的乘積 ...
相關係數矩陣計算 期望 方差 協方差 相關係數
第一部分 理論部分 注 對以上的擴充套件涉及到矩 協方差矩陣 第二部分 實驗部分 編譯器 python 3.6 作 者 寒木雅 計算樣本期望 均值 方差 標準差 協方差 相關係數import numpy as np 生成隨機樣本x,yx np.random.randint 0,10,100 y np...
R中方差,協方差,相關係數
提到方差,乙個命令var 方差定義用來度量隨機變數和其數學期望 即均值 之間的偏離程度。a sample 10 a 1 4 2 9 3 6 10 8 5 7 1 var a 1 9.166667是協方差。協方差定義用於衡量兩個變數的總體誤差,即描述兩個變數之間的相對於各自的期望值的變化趨勢。方差是協...