資料匯入
初步看變數間的關係(視覺化,facetgrid)
仔細看:看因變數與各變數的關係
a)numerical用scatter
b)categorical用boxplot
看各變數之間的關係,是否存在多重共線性,相關性高的列可以刪除乙個
刪除對**沒用的列
看outlier:
1)通過standardscaler標準化後,在+/- 3個方差以外的為outlier
2)畫圖,與因變數關係特別強的幾個變數,關係在趨勢之外的可以視為outlier
從現有列中提取有用資訊,可能使用到正規表示式
分類問題
7. 將categorical變成ordinal (map,labelecoder,get_dummies)
8. 處理缺失值
1) random number 代替
2)同類的均值、中位數代替
# 對於train_df和test_df的同時修改,可以建list,然後寫乙個迴圈
combine =
[train_df, test_df]
for dataset in combine:
***xx
資料分組,如給age分組
pd.cut(train_df[
"age"],
5)# age的數值平均分5組
pd.qcut(train_df[
"age",5
])# age的個數平均分5組
形成新的列:通過加減乘除(根據變數含義邏輯)
回歸問題
7. 檢驗異方差性、正態性
資料預處理方法
一.資料清理 1.填出缺失值 無記錄值資料 1 忽略元祖 缺少類標號時使用,適用於多個屬性值缺失 2 人工填寫缺失值 3 用屬性的均值填充缺失值 4 用全域性常量填充 unknow 5 用同樣本的屬性均值填充缺失值 6 使用最可能的值填充缺失值 可由回歸 貝葉斯形式化的基於推理的工具或決策樹歸納確定...
資料預處理方法
原文 資料預處理有四個任務,資料清洗 資料整合 資料 變換和資料規約。一 資料清洗 1.缺失值處理 處理缺失值分為三類 刪除記錄 資料補差和不處理。資料補插方法 1.補插均值 中位數 眾數 2.使用固定值 3.最近鄰補插 4.回歸方法 5.插值法 插值法介紹 1 拉格朗日插值法 2 牛頓插值法 需要...
資料預處理基本方法
1 聚集 聚集可能丟失細節,聚集是統計學的表現 被聚集的單個物件 按平均值 總數 按天 周 月等聚集量 2 抽樣 選擇資料子集進行分析的方法。抽樣方法 a 隨機取樣 無放回取樣 放回取樣 b 分層取樣 當總體有不同型別的物件組成,每種型別的物件差別很大時,隨機取樣不能充分的代表不太頻繁出現的物件型別...