基於R進行相關性分析

2021-08-11 04:52:40 字數 2459 閱讀 7655

一、相關性矩陣計算:

[1] 載入資料:

>data = read.csv("231-6057_2016-04-05-zx_wd_2.csv",header=false)

說明:csv格式的資料,header=false 表示沒有標題,即資料從第一行開始。 

[2]  檢視匯入資料的前幾行,

[3] 刪除資料的7,8列,都是0

[4] 計算相關性矩陣(可以自己指定採用的方法,"pearson", "kendall", "spearman")

二 相關係數的顯著性水平(correlation significance levels (p-value))

使用hmisc 包,不僅可以計算相關性矩陣,還可以計算對應的顯著性水平

[1] 安裝包 hmisc (依賴包也會一併安裝,lib代表安裝包的路徑)

>install.packages("hmisc",lib="e:/program files/r/r-3.3.0/library/")

[2] 載入包

>library(hmisc)

[3] 計算相關性和顯著水平 (as.matrix(data) 表示將data轉換成矩陣)

輸出說明:

n :  處理資料的總記錄數(行數)

p :  顯著性水平矩陣(越**明越顯著)

三、視覺化相關性分析

[1] 使用 symnum() 函式實現視覺化 (cor_matr 是我們上文中cor()函式計算出來的相關性矩陣)

符號說明:在輸出的最後一行,說明了符號的意義,例如 [0.9 , 0.95) 這個區間使用 * 表示。其他符號類似

[2] 使用 corrplot() 函式實現視覺化(這裡需要使用到corrplot包,沒有安裝的需要安裝)

輸出說明:用不同顏色表示了相關性的強度,根據最右邊的顏色帶來看,越接近藍色說明相關性越高。其中圓形的大小也說明了行慣性的大小。

[3] 使用 performanceanalytics 包進行視覺化

輸出說明:

[4] heatmap 視覺化

說明:第一行是製作調色盤,紅色表示相關性最高。第二行引數說明,x: 相關性矩陣(前文已經計算),col: 調色盤,symm: 以對稱矩陣的形式顯示(可以看到畫出來的圖是中心對稱的,不過前提是輸入的矩陣是方陣)

參考:[1] correlation matrix : a quick start guide to analyze, format and visualize a correlation matrix using r software

[2] significance of the correlation coefficient

[3] installing r packages

分類: 

讀書標籤: 

r, 資料分析, 

回歸

R語言相關性分析

相關性分析就是通過定量指標描述變數之間的強弱 直接或間接的聯絡。常見相關性指標 pearson相關係數是用於表示相關性大小的最常用指標,數值介於 1 1之間,越接近0相關性越低,越接近 1或1相關性越高。正負號表明相關方向,正號為正相關 負號為負相關。又稱為秩相關係數,利用兩變數的秩次大小來進行分析...

運用python進行相關性統計檢驗

主要是 2 分類變數vs分類變數 卡方檢驗 3 連續變數vs多分類變數 f檢驗 4 連續變數vs二分類變數 若連續變數滿足正態分佈,則用t檢驗,否則應用曼 惠特尼u檢驗 主要的python指令碼如下 from sklearn.feature selection import selectkbest,...

在R中進行相關分析

1.用r進行多元相關分析 用cov函式計算mtcars資料框的前三個變數的協方差矩陣 cov mtcars 1 3 mpg cyl disp mpg 36.324103 9.172379 633.0972 cyl 9.172379 3.189516 199.6603 disp 633.097208 ...