在《變數關係大揭秘(一)》,我們提到了皮爾森相關係數r
先來兩個散點圖,左圖中x和y不相關,右圖中x和y高度正相關,差別在哪?
讓我們在左右兩圖各畫乙個「田」字,「田」字中心的座標是(x的平均值,y的平均值):
比較左右兩圖,我們知道:
當散點在a、b、c、d均勻分布,x和y不相關;
當a和c的點越多,並且b和d的點越少,x和y就越(正)相關;
當b和d的點越多,並且a和c的點越少,x和y就越(負)相關(懶得畫圖了,自行腦補)。
我們還知道:對於任乙個點(x,y),下面的公式
有時為正,有時為負;
當散點位於a或c時,公式一定為正;
當散點位於b或d時,公式一定為負。
如果把每個點對應的公式加在一塊,就得到了下面的「西格瑪」(看到σ不要怕,就是加號,意思是把右邊的式子都加起來):
我們還還知道:
當σ是正值(ac點多,bd點少),代表正相關;
當σ是負值(bd點多,ac點少),代表負相關;
不管正負,σ的絕對值越大,x和y的線性相關程度就越高;
σ絕對值為零,x和y(線性)不相關。
「西格瑪」看來很好用,但它有缺陷,會受到散點個數(樣本數量)的影響。閉上眼睛想象一下,假設變數x和y是高度正相關,如果我們在已有樣本的基礎上又觀察了幾次,就會多得到幾個點,把它們加進原來的σ,σ值一定會變大。
恭喜!我們剛剛發明了協方差(covariance)!
協方差可以代表變數x和y的線性關係的強弱(絕對值大小)以及方向(正負),但它也有缺陷。閉上眼睛想象一下,假設x是身高,單位是厘公尺,y是體重,單位是公斤,現在我把x的單位換成公釐,於是所有的x值都會「憑空」擴大10倍,x和y的協方差也會擴大10倍。
這就有點不靠譜了!因為x和y的相關程度並沒有變化。這說明協方差會受到x的量綱或者波動的影響。同理,也會受到y的量綱或者波動的影響。本著「誰影響就除掉誰」的原則,我們用x和y的協方差同時除以x的標準差和y的標準差,得到下面的公式:(還記得誰代表x的波動嗎?對,就是x的標準差:
恭喜!我們剛剛發明了皮爾森相關係數!
這個公式還可以寫成另一種形式:
這樣含義就更明顯了!相關係數r就是x和y分別標準化之後(zx和zy)的n個乘積的平均值,它反映的是兩個變數(x和y)每單位變化時的相關性,它不受變數x或y自身量綱和波動的影響。
相關係數r可以更好的代表x和y的線性關係的強弱和方向,但它仍有缺陷。除了《變數關係大揭秘(一)》談到的「r只能衡量直線相關(r=0可能曲線相關)」以及「容易受異常值的影響」,還有:
r是乙個「人造」的標準化係數,它既不定距,更不定比,你把它理解為定序資料吧(參考《資料的型別》),所以不同的r之間只能比大小(可以說「相關性更強或更弱」),不能做加減乘除(不可以說「相關性強幾倍或弱多少」)。
r仍然與樣本數量n有關。當樣本數量很小的時候,r可能很大;而當樣本數量很大的時候,除非兩個變數之間有極強的相關性,否則r都不會太大。下圖中x是年齡,y是收入,相關係數r明顯是1(兩點肯定在一條直線上),而這很荒唐!收入不會完全由年齡決定。究其原因是樣本數量n=2,太少了。所以當樣本數量較少時,即使r值比較大,我們也要很謹慎!
說到這裡,可能有人會問,r值到底多大合適?我負責任的告訴你,沒有統一標準(這還涉及r的檢驗)。如果一定要說,r值在-0.5到0.5之間,我們一般認為「不(線性)相關」或者「相關性非常弱」。
哦,臨了提一句,方差是協方差的一種特殊情況,x的方差可以看作是x和它自己的協方差。
皮爾森相關係數
皮爾森相關係數 pearson correlation coefficient 也稱皮爾森積矩相關係數 pearson product moment correlation coefficient 是一種線性相關係數。皮爾森相關係數是用來反映兩個變數線性相關程度的統計量。相關係數用r表示,其中n為樣...
Pearson 相關係數
1 pearson s r,稱為皮爾遜相關係數 pearson correlation coefficient 用來反映兩個隨機變數之間的線性相關程度。2 pearson是乙個介於 1 和1 之間的值。3 當兩個變數的線性關係增強時,相關係數趨於1或 1 4 當乙個變數增大,另乙個變數也增大時,表明...
復相關係數
在實際分析中,乙個變數的變化往往要受到多種變數的綜合影響,這時就需要採用復相關分析法。所謂復相關,就是研究多個變數與某個變數之間的相關關係。度量復相關程度的指標是復相關係數,復相關係數也稱為多元相關係數或多變數相關係數。設因變數為y,自變數為x1,x2,xp,假定回歸模型為 復相關係數反映了乙個變數...