第3章 特徵增強:清洗資料
主要內容:
識別資料中的缺失值;
刪除有害資料;
輸入(填充)缺失值;
對資料進行歸一化/標準化;
構建新特徵;
手動或自動選擇(移除)特徵;
使用數學矩陣計算將資料集轉換到不同的維度。
3.1 識別資料中的缺失值
檢視資料集中是否有資料點是空的,用pandas dataframe內建的isnull()方法:
dataname.isnull().sum() 統計缺失值的數量
3.2處理資料集中的缺失值
主要的兩種處理方法:
刪除缺少值的行 dataname.dropna()
填充缺失值 dataname['列名'].fillna(['列名'].mean(),inplace = true) 也可以用sklearn預處理類的imputer模組(填充器)進行缺失值填充
資料集的每列均值: dataname.mean() 某列的均值 datanamme['列名'].mean()
特徵工程 特徵工程入門與實踐(一)
特徵工程 將資料轉換為能更好地表示潛在問題的特徵,從而提高機器學習效能。大體上,機器學習分為兩類 評估分類問題,可以採用交叉驗證法 from sklearn.linear model import logisticregression from sklearn.model selection imp...
特徵工程入門與實踐 筆記 sklearn
目錄 一 特徵理解 1 定類資料 2 定序資料 3 定距資料 4 定比資料 二 清洗資料 1 識別缺失值 1 刪除缺失值的行 2 填充缺失值 醫學類資料禁用,因為要求真實 2 標準化 歸一化 三 特徵構建 1 定類特徵的填充 2 定量特徵的填充 3 定類特徵的編碼 4 定序特徵的編碼 5 連續值分箱...
讀書筆記 《特徵工程入門與實踐》
歸一化和標準化 本書認為資料可以分為四大等級,分為是 定類 定序 定距 定比,其中定類和定序都是定性的資料,定距和定比是定量的資料。定類是離散的 無序的,舉例 人名 油漆名稱 動物物種 猴子 馬 牛等 定序是有序類別 可以比較的,舉例 考試等級 great good not bad bad等或 0 ...