機器學習特徵工程之特徵預處理

2021-08-21 07:40:07 字數 1289 閱讀 4506

通過特定的統計方法(數學方法)講資料轉換成演算法要求的資料。

數值型資料:

歸一化標準化

缺失值類別型資料:one-hot編碼

時間型別:時間的切分

在對資料進行異常值、缺失值、資料轉換等處理後,我們需要從當前資料集中選出有意義的特徵,然後輸入到演算法模型中進行訓練。

對資料集進行特徵選擇主要基於以下幾方面的考慮:

1.冗餘的特徵會影響阻礙模型找尋資料潛在的規律,若冗餘的特徵過多,還會造成維度容災,占用大量的時間空間,使演算法執行效率大打折扣。

2.去除不相關的特徵會降低學習任務的難度,保留關鍵的特徵更能直觀的看出資料潛在的規律。

那麼,該如何進行特徵選擇呢?通常,要從兩方面考慮來選擇特徵:

1.特徵是否具有發散性:

如果乙個特徵不發散,例如方差接近於0,也就是說樣本在這個特徵上基本上沒有差異,這個特徵對於樣本的區分並沒有什麼用。

scikit-learn歸一化處理api:sklearn。preprocession.minmaxscaler

歸一化步驟:

1.例項化minmaxscalar

2.通過fit_transform轉換

在特定場景下最大值和最小值是變化的,另外,最大值個最小值非常容易受異常點影響,所以歸一化方法的穩定性較差,只適合傳統精確小資料場景。

特點:通過對原始資料進行變換把資料變化到均值為0,標準差為1範圍內。

大多數使用標準化。

標準化api:scikit-learn.preprocessing.standardscaler

目的:縮放資料。

標準化步驟:

1.例項化standardscaler

2.通過fit_transform轉換

特徵工程之特徵預處理

概念 特徵預處理是什麼呢?特徵預處理是通過統計方法 數學方法 將資料轉換成演算法要求的資料,所以特徵預處理也叫做資料預處理。下面是幾種資料預處理的方法 1 數值型資料 標準縮放 1 歸一化2 標準化 2 類別型資料 one hot編碼 3 時間類別 時間的劃分 下面介紹歸一化和標準化歸一化 歸一化 ...

特徵工程之特徵預處理

在前面我們分別討論了特徵工程中的特徵選擇與特徵表達,本文我們來討論特徵預處理的相關問題。主要包括特徵的歸一化和標準化,異常特徵樣本清洗與樣本資料不平衡問題的處理。由於標準化和歸一化這兩個詞經常混用,所以本文不再區別標準化和歸一化,而通過具體的標準化和歸一化方法來區別具體的預處理操作。z score標...

特徵工程之特徵預處理

在前面我們分別討論了特徵工程中的特徵選擇與特徵表達,本文我們來討論特徵預處理的相關問題。主要包括特徵的歸一化和標準化,異常特徵樣本清洗與樣本資料不平衡問題的處理。1.特徵的標準化和歸一化 由於標準化和歸一化這兩個詞經常混用,所以本文不再區別標準化和歸一化,而通過具體的標準化和歸一化方法來區別具體的預...