方差pearson相關係數
協方差矩陣與相關係數矩陣
我們將隨機實驗e的一切可能基本結果(或實驗過程如取法或分配法)組成的集合稱為e的樣本空間,記為s。樣本空間的元素,即e的每乙個可能的結果,稱為樣本點。
這樣思考一下,如果某個資料集x
xx滿足它是某個分布的隨機取樣,那麼在取樣過程中最可能出現的值是多少?拿標準正態分佈來說,這個最可能出現的值就是中間的值。這個實際上是一種統計平均。在計算中也是使用統計平均的方式(即加權平均)來計算的,加上的權值就是該樣本可能出現的概率。
若我們的樣本集為:x
xx,則:
對於乙個隨機變數x
xx,對於x
xx進行隨機取樣我們可以得到資料集x
xx,如果可以使用某個分布來描述這個資料集x
xx的情況的話,那麼方差就可以用來描述這個分布的發散程度,資料分布越發散,其期望越不穩定,這個分布本身也就越不穩定。
標準差:方差取根號是標準差
e
>0⇒
e(x2
)≥e2
(x)e\>0\rightarrow{}e(x^2)\geq{}e^2(x)
e>0⇒
e(x2
)≥e2
(x),當x
xx取定值的時候,取等號。
協方差是兩個隨機變數變化具有相同變化趨勢的度量,注意,協方差在這裡統計的兩個變數是屬於同乙個資料集的,在每一步計算的時候,計算引入的兩個隨機變數的值都屬於同乙個樣本點。 定義
c ov
(x,y
)=ecov(x,y)=e\
cov(x,
y)=e
計算方法
c ov
(x,y
)=∑i
(xi−
xˉ)(
yi−y
ˉ)n−
1cov(x,y)=\frac)(y_i-\bar)}
cov(x,
y)=n
−1∑i
(xi
−xˉ
)(yi
−yˉ
)
性質定義
− 1≤
ρxy=
cov(
x,y)
var(
x)va
r(y)
≤1-1\leq\rho_=\frac}\leq{}1
−1≤ρxy
=va
r(x)
var(
y)c
ov(x
,y)
≤1性質這裡看一下前面的協方差的上界有關內容就可以知道,pearson相關係數只是把協方差歸一化了一下(當年出個成果真簡單/誤),若∣ρx
y∣=1
|\rho_|=1
∣ρxy∣
=1,那麼x、y
x、yx、
y具有絕對線性關係,若∣ρx
y∣=0
|\rho_|=0
∣ρxy∣
=0,則x 、y
x、yx、
y絕對不具有線性關係。
定義對於n個隨機向量
c =[
c11⋯c
1n⋮⋱
⋮cn1
⋯cnn
]c= \begin c_ & \cdots & c_ \\ \vdots & \ddots & \vdots \\ c_ & \cdots & c_ \end
c=⎣⎢⎡
c11
⋮cn1
⋯⋱
⋯c1
n⋮c
nn
⎦⎥⎤
作用協方差矩陣的意義在於使用簡潔的矩陣表示了資料特徵之間的一些關係,並且協方差矩陣具有許多很好的特性,便於計算。這裡我們可以引申到相關係數矩陣。
無論是協方差矩陣或者是相關係數矩陣,他們都可以描述隨機變數之間的線性關係。
實對稱陣:
實對稱陣有很多有用的性質。
比如若有n
nn階實對稱陣a
aa,則必有正交矩陣p
pp,使得:
p−1ap=p
tap=
λp^a{}p=p^a{}p=\lambda
p−1ap=
ptap
=λ其中λ
\lambda
λ為以a
aa的n
nn個特徵值為對角元的對角矩陣
這個性質就很適合我們基於協方差矩陣去做pca
pcapc
a(主成分分析)
期望 方差 協方差和協方差矩陣
1 泊松分布的期望等於 role presentation 2 均勻分布的期望位於區間的中心 3 高斯分布的期望為 role presentation 4 二項分布的期望為np role presentation npn p常數的期望等於該常數 e cx ce x role presentation...
協方差 協方差矩陣
期望 離散型隨機變數的一切可能的取值xi與對應的概率pi xi 之積的和稱為該離散型隨機變數的數學期望 設級數絕對收斂 記為 e x 隨機變數最基本的數學特徵之一。它反映隨機變數平均取值的大小。又稱期望或均值。求法 設離散型隨機變數x的取值為 方差 方差是各個資料與平均數之差的平方的平均數。在概率論...
協方差和協方差矩陣
協方差的定義 對於一般的分布,直接代入e x 之類的就可以計算出來了,但真給你乙個具體數值的分布,要計算協方差矩陣,根據這個公式來計算,還真不容易反應過來。網上值得參考的資料也不多,這裡用乙個例子說明協方差矩陣是怎麼計算出來的吧。記住,x y是乙個列向量,它表示了每種情況下每個樣本可能出現的數。比如...