皮爾遜相關係數與p值

2021-09-28 20:16:30 字數 1047 閱讀 7893

假設有兩個變數x,y

則兩者之間的皮爾遜相關係數為:

皮爾遜相關係數衡量的是兩者之間的相關關係,取值範圍為[-1,1],取值為正表示正相關,取值為負表示是負相關,同時,皮爾遜相關係數衡量的是兩個變數之間的線性關係,如下圖,橫軸與縱軸變數有明顯的線性關係,

由公式計算出來相關係數為 0.9836,高度相關性;

而當兩個變數之間有相關關係但是不是線性時,用皮爾遜相關係數衡量則會出現較大的偏差 ,比如

下圖,設橫軸為x, 縱軸為y,且 y = x*x

兩變數之間有非線性的相關性,但如果此時用皮爾遜相關係數衡量,則相關係數為0

所以,非線性相關關係不能用皮爾遜相關係數衡量

通常情況下通過以下取值範圍判斷變數的相關強度:

相關係數 (均取絕對值後):

0.8-1.0 極強相關

0.6-0.8 強相關

0.4-0.6 中等程度相關

0.2-0.4 弱相關

0.0-0.2 極弱相關或無相關

討論兩變數是否相關必須討論顯著性水平,不談p值之談相關係數大小是無意義的,兩者之間的相關關係可能只是偶然因素引起的,所以我們要對兩個變數之間的相關關係的顯著性水平進行判斷;

根據假設檢驗方法,在零假設成立的條件下,即假設兩變數不存在相關性的前提下,計算出兩變數不存在相關性的概率值(p值),如果這個p值很小,說明兩變數不存在相關性的概率很小,我們就可以拒絕原假設,接受備擇假設,那麼這裡我們就需要乙個閾值

通常以5%為閾值(這裡的閾值也稱為顯著水平),如果 p<0.05,則說明可以拒絕原假設。接受備擇假設,即兩變數之間存在顯著的線性關聯

所以當p值遠大於 0.05時,即使相關係數很大,我們也不能說兩變數之間存在明顯相關性;而且一般要先在p值滿足要求的前提下再去談 相關係數的大小

本人的粗淺認識,若有錯誤,勞煩指正.

皮爾遜相關係數

皮爾遜相關係數是比歐幾里德距離更加複雜的可以判斷人們興趣的相似度的一種方法。該相關係數是判斷兩組資料與某一直線擬合程式的一種試題。它在資料不是很規範的時候,會傾向於給出更好的結果。公式一 皮爾遜相關係數計算公式 公式二 皮爾遜相關係數計算公式 公式三 皮爾遜相關係數計算公式 公式四 皮爾遜相關係數計...

皮爾遜相關係數和檢驗P值

看兩者是否算相關要看兩方面 顯著水平以及相關係數 1 顯著水平,就是p值,這是首要的,因為如果不顯著,相關係數再高也沒用,可能只是因為偶然因素引起的,那麼多少才算顯著,一般p值小於0.05就是顯著了 如果小於0.01就更顯著 例如p值 0.001,就是很高的顯著水平了,只要顯著,就可以下結論說 拒絕...

皮爾遜相關係數 如何理解皮爾遜相關係數和協方差

如果結果為正值,則說明兩者是正相關的,也就是說乙個人身高越高體重越重。如果結果為負值,就說明兩者是負相關。如果為0,則兩者之間沒有關係,身高和體重之間沒有關聯。雖然協方差能反映兩個隨機變數的相關程度 協方差大於0的時候表示兩者正相關,小於0的時候表示兩者負相關 但是協方差值的大小並不能很好地度量兩個...