三大相關係數分別是pearson[皮爾森]、spearman[斯皮爾曼] 和 kendall[肯德爾]
反應的都是兩個變數之間變化趨勢的方向以及程度,其值範圍為-1到+1,0表示兩個變數不相關,正值表示正相關,負值表示負相關,值越大表示相關性越強。
兩個變數(x, y)的皮爾森相關性係數(ρx,y)等於它們之間的協方差cov(x,y)除以它們各自標準差的乘積(σx, σy)。
tips:
方差是表示乙個變數的波動情況,方差越小表示資料越集中,越大表示資料越離散;
標準差:等於(或近似等於)方差的開根號;
協方差:用於描述兩個變數間的線性關係。兩個變數的協方差越大,它們在一系列資料點範圍內的取值所呈現出的趨勢就越相近.
pearson對資料有比較高的要求:
a. 實驗資料通常假設是成對的來自於正態分佈的總體。在求皮爾森相關性係數以後,通常還會用t檢驗之類的方法來進行皮爾森相關性係數檢驗,而 t檢驗是基於資料呈正態分佈的假設的.
b.實驗資料之間的差距不能太大,或者說皮爾森相關性係數受異常值的影響比較大.
也叫斯皮爾曼 秩 相關係數。「秩」,可以理解成就是一種順序或者排序,根據原始資料的排序位置進行求解,這種表徵形式就沒有了求皮爾森相關性係數時那些限制.
n表示資料的數量,di 表示兩個資料次序的差值:
例如實驗資料如下:
帶入公式,求得斯皮爾曼相關性係數:r= 1-6*(1+1+1+9)/6*35=0.657
由於資料情況不同,求得肯德爾相關性係數的計算公式不一樣,一般有3種計算公式,
假設兩個隨機變數分別為x、y(也可以看做兩個集合),它們的元素個數均為n,兩個隨即變數取的第i(1<=i<=n)個值分別用xi、yi表示。元素為(xi, yi)(1<=i<=n),
a. 當集合xy中任意兩個元素(xi, yi)與(xj, yj)的排行相同時(情況1:xi>xj且yi>yj,情況2:xixj且yiyj),這兩個元素被認為是不一致的。
c. 當出現(情況5:xi=xj,情況6:yi=yj),這兩個元素既不是一致的也不是不一致的。
c表示xy中擁有一致性的元素對數(兩個元素為一對);d表示xy中擁有不一致性的元素對數。
公式一:僅適用於集合x與y中均不存在相同元素的情況(集合中各個元素唯一)。
公式二: 適用於集合x或y中存在相同元素的情況
其中
n1針對集合 x 計算,n2針對集合 y 計算,將x中的相同元素分別組合成集合,s表示集合x中擁有的集合數(例如x包含元素:1 2 3 4 3 3 2,那麼這裡得到的s則為2,因為只有2、3有相同元素),ui表示第i個集合所包含的元素數。
公式三:僅適用於用**表示的隨機變數x、y之間相關係數的計算。
x=;y=;其中m為3
統計學三大相關係數
person correlation coefficient 皮爾森相關性係數 公式如下 重點關注第乙個等號後面的公式,最後面的是推導計算,暫時不用管它們。看到沒有,兩個變數 x,y 的皮爾森相關性係數 x,y 等於它們之間的協方差cov x,y 除以它們各自標準差的乘積 x,y 公式的分母是變數的...
SPSS中三種相關係數
在spss軟體相關分析中,pearson 皮爾遜 kendall 肯德爾 和spearman 斯伯曼 斯皮爾曼 三種相關分析方法有什麼異同 兩個連續變數間呈線性相關時,使用pearson積差相關係數,不滿足積差相關分析的適用條件時,使用spearman秩相關係數來描述.spearman相關係數又稱秩...
數理統計 頻數和相關係數
兩邊一樣,叫對稱分布 正態分佈 右邊的資料比左邊的資料離散,叫右偏分布 正偏態 左邊的資料比右邊的資料離散,叫左偏分布 負偏態 偏態分布有兩個特點 它有兩個特點 一是左右不對稱 即所謂偏態 二是當樣本增大時,其均數趨向正態分佈。skewness偏度 對於右偏分布,偏度為負 對於左偏分布,偏度為正。對...