R語言手冊(第三站 探索性資料分析)

2021-09-19 14:36:58 字數 2862 閱讀 4041

標籤: r語言

houses

stringsasfactors = false,

header = false)

names(houses)

#標準化變數

houses$minc_z

houses$hage_z

#同樣操作作用於其他變數

#隨機選取90%用於測試資料集

choose

test.house

train.house

#需要庫"psych"

library(psych)

pcal

c(10:17)],

nfactors=8,

rotate="none",

scores=true)

#特徵值:

pcal$values

#負載矩陣

#解釋變異

pcal$loadings

輸出:

plot(pcalsvalues,

type="b",

main="screeplotfor housesdata")

輸出:

pairs(~train.house$minc + train.house$hage + pcal$scores[.3],

labels=c("median income",

"housing median age",

"component 3 scores"))

輸出:

comm3

comm4

loadings(pcal)[2,4]2

comm3;comm4

輸出:

pca2

nfactors=4,

rotate="none",

scores=true)

pca2sloadings

輸出:

以下的是因子分析:

adult

stringsasfactors =false)

adult$"capnet"

adult.s

#標準化資料:

adult.s$age_z

adult.s$dem_z

adult.s$educ_z

adult.s$capnet_z

adult.s$hours_z

#隨機選取測試集

choose

test.adult

train.adult=.1),c(6:10)]

#需要包psych

library(psych)

corrmatl

cortest.bartlett(corrmatl, n=dim(train.adult)[1])

輸出:

#需要psych、gparotation

library(gparotation)

falfal$values #特徵值

fal$loadings #負載

輸出:

fa2

nfactors=2,

fm="pa",

max.iter=200,

rotate="none")

fa2$values #特徵值

fa2sloadings #負載

fa2scommunality #共性

輸出:

fa2v

nfactors=2,

fm="pa",

max.iter=200,

rotate="varimax")

fa2v$loadings

fa2v$communality

輸出:

EDA 探索性資料分析

引導資料科學從業者進行資料處理以及特徵工程的步驟,使資料集的結構和特徵集讓接下來的 問題更加可靠。值得注意的是,eda過程中是對原始資料的特徵 統計特徵 分布特徵 相關性等 進行挖掘,但是沒有刪除或構造任何特徵 花式查詢,不包括增 刪 改 1 載入各種資料科學以及視覺化庫 資料科學庫 pandas ...

EDA(探索性資料分析)

1 什麼是eda分析?exploratory data analysis 在特徵 資料處理的過程中,對資料進行探索,找到他們之間的更多潛在關係。2 怎麼去做eda分析?主要是通過資料視覺化來顯示資料之間的關聯,從而對資料進行處理。首先,我們應該思考的是是否會出現下列問題 1 資料是否缺失,有沒有離群...

01 探索性資料分析

資料競賽基本流程 美國國家標準與技術研究院 national institute of standards and technology,nist 提出探索性資料分析 eda 主要有如下功能 載入各種資料科學以及視覺化庫 載入資料 資料預覽 判斷資料缺失和異常 缺失值檢測 nan視覺化 missin...