標籤: r語言
houses
stringsasfactors = false,
header = false)
names(houses)
#標準化變數
houses$minc_z
houses$hage_z
#同樣操作作用於其他變數
#隨機選取90%用於測試資料集
choose
test.house
train.house
#需要庫"psych"
library(psych)
pcal
c(10:17)],
nfactors=8,
rotate="none",
scores=true)
#特徵值:
pcal$values
#負載矩陣
#解釋變異
pcal$loadings
輸出:
plot(pcalsvalues,
type="b",
main="screeplotfor housesdata")
輸出:
pairs(~train.house$minc + train.house$hage + pcal$scores[.3],
labels=c("median income",
"housing median age",
"component 3 scores"))
輸出:
comm3
comm4
loadings(pcal)[2,4]2
comm3;comm4
輸出:
pca2
nfactors=4,
rotate="none",
scores=true)
pca2sloadings
輸出:以下的是因子分析:
adult
stringsasfactors =false)
adult$"capnet"
adult.s
#標準化資料:
adult.s$age_z
adult.s$dem_z
adult.s$educ_z
adult.s$capnet_z
adult.s$hours_z
#隨機選取測試集
choose
test.adult
train.adult=.1),c(6:10)]
#需要包psych
library(psych)
corrmatl
cortest.bartlett(corrmatl, n=dim(train.adult)[1])
輸出:
#需要psych、gparotation
library(gparotation)
falfal$values #特徵值
fal$loadings #負載
輸出:
fa2
nfactors=2,
fm="pa",
max.iter=200,
rotate="none")
fa2$values #特徵值
fa2sloadings #負載
fa2scommunality #共性
輸出:
fa2v
nfactors=2,
fm="pa",
max.iter=200,
rotate="varimax")
fa2v$loadings
fa2v$communality
輸出:
EDA 探索性資料分析
引導資料科學從業者進行資料處理以及特徵工程的步驟,使資料集的結構和特徵集讓接下來的 問題更加可靠。值得注意的是,eda過程中是對原始資料的特徵 統計特徵 分布特徵 相關性等 進行挖掘,但是沒有刪除或構造任何特徵 花式查詢,不包括增 刪 改 1 載入各種資料科學以及視覺化庫 資料科學庫 pandas ...
EDA(探索性資料分析)
1 什麼是eda分析?exploratory data analysis 在特徵 資料處理的過程中,對資料進行探索,找到他們之間的更多潛在關係。2 怎麼去做eda分析?主要是通過資料視覺化來顯示資料之間的關聯,從而對資料進行處理。首先,我們應該思考的是是否會出現下列問題 1 資料是否缺失,有沒有離群...
01 探索性資料分析
資料競賽基本流程 美國國家標準與技術研究院 national institute of standards and technology,nist 提出探索性資料分析 eda 主要有如下功能 載入各種資料科學以及視覺化庫 載入資料 資料預覽 判斷資料缺失和異常 缺失值檢測 nan視覺化 missin...