2014 05 09 相關性檢驗

2022-09-04 01:12:14 字數 1641 閱讀 7498

今天做空氣質素資料分析時候碰到相關性檢驗的問題。

問題描述:有兩種汙染物濃度資料,怎麼判斷這兩種汙染物濃度之間是否存在相關性?正相關或負相關,即當a濃度上公升時,b的濃度同時上公升或下降?(這是相關性的定義嗎?)

最常用,但是有潛在問題。

檢驗結果為"不相關",不代表x和y之間就是相互獨立的。「pearson不相關」和「獨立」是兩個概念,不要混淆。只有當x和y的分布都是正態分佈時,兩者才會等同。

舉例:比如對於

,x服從[-1,1]上的均勻分布,此時e(xy)為0,e(x)也為0,所以

,但x和y明顯不獨立

必須假設資料是成對地從正態分佈中取得的。(因此,pearson線性相關係數是衡量線性關係強弱的)

資料至少在邏輯範圍內是等距的。

如何直觀理解pearson係數?

詳見 皮爾森相關係數(pearson correlation coefficient)也叫皮爾森積差相關係數(pearson product-moment correlation coefficient),是用來

反應兩個變數相似程度的統計量。或者說可以用來計算兩個向量的相似度(在基於向量空間模型的文字分類、使用者喜好推薦系統中都有應用)。

分子是協方差,分子是兩個變數標準差的乘積。顯然要求x和y的標準差都不能為0。

因為,所以皮爾森相關係數計算公式還可以寫成:

當兩個變數的線性關係增強時,相關係數趨於1或-1。正相關時趨於1,負相關時趨於-1。

當兩個變數獨立時相關系統為0,但反之不成立

。對於居中的資料來說(何謂居中?也就是每個資料減去樣本均值,居中後它們的平均值就為0),e(x)=e(y)=0,此時有:

即相關係數可以看作是兩個隨機變數中得到的樣本集向量之間夾角的cosine函式。

進一步當x和y向量歸一化後,||x||=||y||=1,相關係數即為兩個向量的乘積。

2. spearman秩相關係數

更一般化。

spearman秩相關係數是一種

無引數(與分布無關)

檢驗方法

,用於度量變數之間聯絡的強弱。

在沒有重複資料的情況下,如果乙個變數是另外乙個變數的嚴格單調函式,則spearman秩相關係數就是+1或-1,稱變數完全spearman秩相關。

)對原始資料xi,yi按從大到小排序,記x'i,y'i為原始xi,yi在排序後列表中的位置,x'i,y'i稱為xi,yi的秩次,秩次差di=x'i-y'i。spearman秩相關係數為:

spearman秩相關係數應該是從

秩和檢驗

延伸過來的,因為它們很像。

秩和檢驗是幹什麼用的?

檢驗兩組樣本a和b是否來自同乙個總體。

待弄清的問題:

1.相關性檢驗 vs 獨立性檢驗,區別?

獨立性檢驗是指兩個事件是否獨立?即,同時發生的概率=a發生概率*b發生概率

所以獨立性檢驗的物件是一種離散事件?

2.假設檢驗的東西再好好歸納一下。

基本的解決方法是:根據問題的需要對所研究的總體作某種假設,記作h0;選取合適的統計量,這個統計量的選取要使得在假設h0成立時,其分布為已知;由實測的樣本,計算出統計量的值,並根據預先給定的顯著性水平進行檢驗,作出拒絕或接受假設h0的判斷。常用的假設檢驗方法有u—檢驗法、t—檢驗法、χ2檢驗法、f—檢驗法,秩和檢驗等。

r中的函式:cor() (待補充)

協方差,皮爾遜相關性,卡方檢驗

1 協方差 協方差 covariance 在概率論和統計學中用於衡量兩個變數的總體誤差。而方差是協方差的一種特殊情況,即當兩個變數是相同的情況。期望值分別為 隨機變數 x 與y 之間的協方差定義為 協方差表示的是兩個變數的總體的誤差,這與只表示乙個變數誤差的方差 不同。如果兩個變數的變化趨勢一致,也...

運用python進行相關性統計檢驗

主要是 2 分類變數vs分類變數 卡方檢驗 3 連續變數vs多分類變數 f檢驗 4 連續變數vs二分類變數 若連續變數滿足正態分佈,則用t檢驗,否則應用曼 惠特尼u檢驗 主要的python指令碼如下 from sklearn.feature selection import selectkbest,...

spearman相關性分析 相關性分析

r語言常用函式 cor 預設結果為矩陣 cor mydat,use method use 缺失值的處理,method 處理方法 cor x,y 可以計算非方形矩陣,x y分別為2個矩陣,相同的行數 cor.test x,y,alternative method x y為檢驗相關性的變數 librar...