機器學習之特徵工程 資料的預處理

2021-09-12 18:24:55 字數 1308 閱讀 4144

是在特徵抽取之後進行【也可以直接理解為異常值的處理

引數(對誰處理):二位陣列

特徵預處理:對資料進行預處理,通過特定的統計方法(數學方法)將資料轉換成演算法要求的資料

大致可分為三類:數值型別資料,類別型資料,時間型別  【兩種處理結果:前後特徵值個數不變,特徵值改變;前後特徵值個數改變,特徵值也改變

sklearn特徵處理的api:    sklearn.preprocessing

歸一化目的:使得乙個特徵對最總結果不會造成影響   缺點:如果存在異常點,異常點對最大值和最小值影響太大,導致最終結果不能用。當乙個屬性的值的最大值與最小值的差距太大,就會覆蓋別的特徵的效果,為了避免對最終結果的影響,所以要進行歸一化;

標準化:通過對原始資料進行變換,把資料變換到均值為0,標準差為1範圍內。

表轉化api:sklearn.preprocessing.standardscaler

比較:對於歸一化來說:如果出現異常點,影響了最大值和最小值,那麼結果顯然會發生改變

對於標準化來說:如果出現異常點,由於具有一定數量,少量的異常點對於平均值的影響並不大,從而方差改變較小。

標準化在將來的預處理中是用的最多的,因為在已有樣本足夠多的情況下比較穩定,適合現代嘈雜的大資料場景

3.缺失值的處理

通常在pandas重進行,df.dropna()刪除,      df.fillna() 填補 【平均值,中位數,以行或列進行,一般按行進行】   

df.replace('?',np.nan)    np.nan為float型別

參考:sklearn中對缺失值處理的api:sklearn.proprocessing.imputer

機器學習 特徵工程 特徵預處理

定義 將原始資料轉換為更好地代表 模型的潛在問題的特徵的過程,從而提高了對未知資料的 準確性。內容 主要有三部分 1 特徵抽取 2 特徵預處理 3 資料的降維 特徵預處理 通過特定的統計方法 數學方法 將資料轉換成演算法要求的資料。1 包含內容 2 sklearn特徵處理api sklearn.pr...

機器學習特徵工程之特徵預處理

通過特定的統計方法 數學方法 講資料轉換成演算法要求的資料。數值型資料 歸一化標準化 缺失值類別型資料 one hot編碼 時間型別 時間的切分 在對資料進行異常值 缺失值 資料轉換等處理後,我們需要從當前資料集中選出有意義的特徵,然後輸入到演算法模型中進行訓練。對資料集進行特徵選擇主要基於以下幾方...

機器學習總結 資料預處理和特徵工程

實際生產中機器學習的整個過程應該是如下的幾步 後面還將從資料探勘的角度另文進行講解 1.場景選擇 演算法選擇 根據實際問題選擇合適的演算法,是分類還是回歸等,是否需要做特徵抽象,或者特徵縮放 2.資料預處理 缺失值的處理,資料清洗等等 3.特徵工程 包括特徵構建 特徵提取 特徵選擇等 4.模型訓練 ...