# 用隨機森林對缺失值**填充函式
def set_missing(df):
# 把已有的數值型特徵取出來
process_df = df.ix[:,[變數]]
# 分成已知該特徵和未知該特徵兩部分
known = process_df[process_df.變數.notnull()].as_matrix()
unknown = process_df[process_df.變數.isnull()].as_matrix()
# x為特徵屬性值
x = known[:, 1:]
# y為結果標籤值
y = known[:, 0]
# fit到randomforestregressor之中
rfr = randomforestregressor(random_state=0, n_estimators=200,max_depth=3,n_jobs=-1)
rfr.fit(x,y)
# 用得到的模型進行未知特徵值**
predicted = rfr.predict(unknown[:, 1:]).round(0)
print(predicted)
# 用得到的**結果填補原缺失資料
df.loc[(df.變數.isnull()), '變數'] = predicted
return df
資料處理 缺失值處理
資料缺失主要包括記錄缺失和字段資訊缺失等情況,其對資料分析會有較大影響,導致結果不確定性更加顯著 缺失值的處理 刪除記錄 資料插補 不處理 判斷是否有缺失值資料 isnull,notnull isnull 缺失值為true,非缺失值為false notnull 缺失值為false,非缺失值為true...
資料處理之缺失值處理
coding utf 8 概念 由於某些原因,導致資料中的某些列的值缺失,這種情況可能是正常的,也可能是不正常的。我們可以選擇不處理 補齊 或刪除對應的行 dropna函式作用 去除資料結構中值為空的資料。dropna函式語法 dropna from pandas import read csv d...
python,pandas缺失值資料處理
缺失值資料處理方式 1.資料補齊 2.刪除對應資料行 3.不處理 data.csv檔案內容 uft 8編碼 包含全世界所有國家需要用到的字元,英文 用的較多 gbk編碼 包含全部的中文字元 unicode編碼 把所有語言統一到一套編碼 df pd.read csv r c data data.csv...