檢視資料缺失情況
questionnaire
dim(questionnaire)#檢視行數和變數
library(vim)
aggr(questionnaire[,-1],prop=false,numbers=true)#不要序號,以絕對數顯示,有標籤
for(i in 2:ncol(questionnaire))變數轉因子
z =rep(1,nrow(test1)) 構造2萬個1
z[!result]=2 部分轉變為2
glm用於擬合廣義線性模型,具體方法是給出線性**器的符號描述和誤差分布的描述。
glm(formula, family = gaussian, data, weights, subset,
na.action, start = null, etastart, mustart, offset,
control = list(…), model = true, method = 「glm.fit」,
x = false, y = true, singular.ok = true, contrasts = null, …)
formula:典型的**器有響應~項的形式,其中響應是(數值)響應向量,而項是一系列指定響應線性**器的項。
family(object, …)
binomial(link = 「logit」) 二項式
gaussian(link = 「identity」) 高斯
gamma(link = 「inverse」) 伽馬
inverse.gaussian(link = 「1/mu^2」)
poisson(link = 「log」) 泊松
quasi(link = 「identity」, variance = 「constant」)
quasibinomial(link = 「logit」)
quasipoisson(link = 「log」)
**是對各種模型擬合函式的結果進行**的通用函式。該函式呼叫依賴於第乙個引數的類的特定方法。
zz
「missforest」用於估算缺失值,特別是在混合型別資料的情況下。它可以用於輸入連續和/或分類資料,包括複雜的相互作用和非線性關係。它給出了乙個out-of-bag (oob)的歸算誤差估計。並可並行執行,節省了計算時間。
missforest(xmis, maxiter = 10, ntree = 100, variablewise = false,
decreasing = false, verbose = false,
mtry = floor(sqrt(ncol(xmis))), replace = true,
classwt = null, cutoff = null, strata = null,
sampsize = null, nodesize = null, maxnodes = null,
xtrue = na, parallelize = c(『no』, 『variables』, 『forests』))
xmis:缺少值的資料矩陣。列對應於變數,行對應於觀察值
maxiter:給定停止條件下要執行的最大迭代次數
variablewise:如果「true」,則分別為每個變數返回oob錯誤。這可以作為對輸入變數w.r.t.進行後續資料分析的可靠性檢查
pandas對缺失值的處理
pandas對缺失值的處理 判斷是否為空 刪除or丟棄 填充空值 pandas使用這些函式處理缺失值 isnull 和 notnull 檢驗是否是空值,可用於series和df dropna 丟棄 刪除缺失值 axis 刪除行還是列,default 0 how 如果等於any則任何值為空都刪除,如果...
Panadas對缺失值的處理
這個類用來處理預設值 import pandas as pd import numpy as np import matplotlib.pyplot as plt from pylab import mpl 設定顯示中文字型 mpl.rcparams font.sans serif simhei 讀...
缺失值選擇思想和處理缺失值
import pandas as pd from config import file data pd.read csv file,encoding gbk num data.isna sum print num 部分列如下所示 unnamed 0 0 custid 0 trade no 0 ban...