R中的假設檢驗(三)相關與回歸

2021-10-02 11:58:32 字數 3395 閱讀 4707

學到哪兒寫到哪兒,這篇後面會隨時更新。

一、相關分析

研究變數與變數間的關係就需要分析其相關性,就需要使用相關分析,相關分析比較簡單。它分為皮爾遜相關、斯皮爾曼相關、肯德爾等級相關,並且他們有各自的適用範圍:(1)pearson,皮爾遜積差相關係數,適用於兩個變數為連續變數,且兩個變數需要嚴格符合正態性分布,由於其嚴格的條件所以其具有較強的統計效能。(2)spearman,斯皮爾曼相關係數,對兩個變數的分布無要求,屬於非引數統計方法,其原理是利用兩個變數的秩次大小作相關分析,其適用範圍較廣但是統計效能較低。(3)kendall』s tau-b,肯德爾等級相關係數,適用於兩個變數為分類變數,屬於非引數統計方法

原假設:假設兩個變數不相關,即相關係數是0。

所以當p<0.05時,可認為兩變數是相關的,因此有了統計學意義(注意區別p值大小的意義,要記住不同檢驗方法的原假設)。

相關係數的值的解釋參考:

0 ~ 1 正相關

-1 ~ 0 負相關

0.8 ~ 1.0 極強相關

0.6 ~ 0.8 強相關

0.4 ~ 0.6 中等程度相關

0.2 ~ 0.4 弱相關

0.0 ~ 0.2 極弱相關或無相關

這裡有1個簡便的方法得出相關係數數值,即cor(),是單詞correlation的縮寫,即相關性。用法:cor(x,y=null,use=c(「everything」 ,「all.obs」 ,「complete.obs」 ,「na.or.complete」 ,「pairwise.complete.obs」) ,method=c(「pearson」, 「kendall」, or 「spearman」: ))。

這個函式的作用是得出相關係數的值,可以用於兩個變數甚至多個變數,值得注意的有3點:1.只能用逗號不能用formula,原因是formula的「~」代表「通過什麼來描述」,而這兩個變數是並列的關係,並不是因變數自變數的關係,所以不能用波浪號,只能用逗號;2.加粗斜體為函式預設的方式,所以若不設定method就預設輸出皮爾遜相關係數,並且method支援縮寫,即p,k,s。但是use不支援縮寫;3.如果是2個變數,則x,y輸入2個變數,如果是多個變數,則x就是矩陣或資料框,y不用輸入,最後會生成列表,列出每個組合的相關係數,非常好用;4.all.obs(納入所有資料—遇到缺失值會報錯)、everything(納入所有資料—有缺失值則相關係數的計算結果將被設為missing)、complete.obs(行刪除)以及pairwise.complete.obs(成對行刪除)。當無缺失值時,use不用設定,當有缺失值時,use=complete.obs

1)皮爾遜相關係數顯著性檢驗

**例子:cor.test( blood.glucose ,short.velocity ) #p=0.0479

2)斯皮爾曼相關係數顯著性檢驗

**例子:cor.test( blood.glucose ,short.velocity ,method=「s」) #p=0.1392

3)肯德爾相關係數顯著性檢驗

**例子:cor.test( blood.glucose ,short.velocity ,method=「k」) #p=0.1187

偏相關分析:是在多個變數中,在剔除其他的變數影響後研究兩個變數的關係。最後的結果會輸出兩變數在乙個乙個剔除其他變數後的相關係數,然後自己選擇相關性最高的變數。這個可以用ggm包中的pcor()函式計算偏相關係數。這裡就不介紹了,因為偏相關我用的很少,以後用到了再來補充或專門寫一篇。

二、回歸分析

**示例:lm( short.velocity ~ blood.glucose ) #intercept 截距

檢視模型具體資訊:summary( lm( short.velocity ~ blood.glucose ) )

檢視回歸值:fitted( )或者 lm( short.velocity ~ blood.glucose )$fitted.values

檢視殘差值:resid( ) 或者 lm( short.velocity ~ blood.glucose )$residuals

可以看出,lm()輸出的模型包含了很多資訊,只是輸出比較簡單。

標準化回歸係數

r語言對標準化支援不太好,因此可以使用以下這個包:

install.packages(「quantpsyc」)

library(quantpsyc)

lm1

lm.beta(lm1)

其中的lm.beta其實是:

function (mod)

這樣就完成了回歸係數、標準回歸係數、標準誤、t值、p值的計算。

下面到了我喜歡的畫圖時間~~

抖動散點圖(即箱圖+散點圖):

ggplot(df , aes( x,y , fill = as.factor (group)))+

geom_boxplot( outliter.size = 0 , colour=「black」)+

geom_jitter( aes( group = as.factor( group)),shape=21,alpha=0.5)

調整抖動散點圖的點和箱子的間距:

ggplot( df , aes( x , y , fill=as.factor( group )))+

geom_boxplot( position = position_dodge( 0.75), outlier.size = 0 ,colour=「black」)+

geom_jitter( aes( group = as.factor( group )), shape = 21 ,alpha = 0.5,

position=position_jitterdodge( dodge.width = 0.75 ) )

重磅的殘差分析圖繪製:ggplot(new_thuesen,aes(blood.glucose,short.velocity))+

geom_point()+

geom_smooth(method = 『lm』,se=f)+ geom_segment(aes(xend=blood.glucose,yend=lm_predicted),alpha=.5)+

annotate(geom = 『text』,x=7,y=1.8,label=『y=0.02196x+1.0978』,size=5)

其中omit意為刪除,忽略;alpha代表線段的透明度。xend和yend代表線段終止的點。

數學建模(5 2)相關係數 假設檢驗

有一定概率落在在臨界值之內,原假設的概率成立,表示置信水平可以達到 alpha 顯著性水平 1 beta 1 alpha 1 置信水平 1 確定原假設h 0h 0 h0 和備擇假設h 1h 1 h1 也就是確定要檢測的量 例如體重和90斤有無顯著差異。雙側檢驗 是否在90斤左右 單側檢驗 是否大於9...

假設檢驗中錯誤的型別

i類錯誤是指在無效假設是真的時候,結果是顯著的,第一類錯誤的可能性經常用a表示,並且該值的資料分析前就確定,在質量控制中,第一類錯誤被叫作生產者風險,因為你在乙個產品符合規範要求的情況拒絕了它 簡單來說就是不能拒絕原假設的時候拒絕了原假設 如果我們想回答這樣乙個問題 當備擇假設實際上是正確的時候,我...

shell 三 相關表示式

一 檔案表示式 常規的 特殊 e是不是一般檔案!if f file 如果檔案存在 普通檔案 if d 如果目錄存在 directory if s file 如果檔案存在且非空 socket if r file 如果檔案存在且可讀 可讀 if w file 如果檔案存在且可寫 可寫 if x file...