特徵工程之特徵預處理

2021-08-15 11:31:12 字數 1486 閱讀 8890

概念

特徵預處理是什麼呢?特徵預處理是通過統計方法(數學方法)將資料轉換成演算法要求的資料,所以特徵預處理也叫做資料預處理。

下面是幾種資料預處理的方法

1、數值型資料:標準縮放:1、歸一化2、標準化

2、類別型資料:one-hot編碼   

3、時間類別:時間的劃分

下面介紹歸一化和標準化歸一化

歸一化 特點:通過對原始資料進行變換把資料對映到(預設在[0,1])之間

公式:其中公式作用於每一列(列:特徵,行:樣本),max和min分別代表每一列的最大值和最小值,x''為最終結果,mx,mi分別為指定的對映區間的最大值和最小值預設值為1和0。

下面是歸一化的例子:

當多個特徵同等重要的時候需要進行歸一化處理,目的是使每乙個特徵不會對最終結果造成更大的影響。

歸一化的缺點是:異常點對最大值和最小值影響太大,所以說只適合傳統精確小資料場景。

下面是歸一化的python**(使用sklearn):

def mm():

"""歸一化處理

:return: none

"""mm = minmaxscaler(feature_range=(0,1))

data = mm.fit_transform([[90,2,10,40],[60,4,15,45],[75,3,13,46]])

print(data)

下面是執行結果:

標準化

特點:通過對原始資料進行變換把資料變換到均值為0,方差為1範圍內。

公式:(由於輸入不方便,所以直接引用)

標準化的優點是具有一定資料量,少量的異常點對於平均值得影響並不太大即異常點對於方差和平均值得影響是比較小。

下面是標準化的python**:

def stand():

"""標準化處理

:return: none

"""std = standardscaler()

data = std.fit_transform([[90,2,10,40],[60,4,15,45],[75,3,13,46]])

print(data)

return none

執行結果:

特徵工程之特徵預處理

在前面我們分別討論了特徵工程中的特徵選擇與特徵表達,本文我們來討論特徵預處理的相關問題。主要包括特徵的歸一化和標準化,異常特徵樣本清洗與樣本資料不平衡問題的處理。由於標準化和歸一化這兩個詞經常混用,所以本文不再區別標準化和歸一化,而通過具體的標準化和歸一化方法來區別具體的預處理操作。z score標...

特徵工程之特徵預處理

在前面我們分別討論了特徵工程中的特徵選擇與特徵表達,本文我們來討論特徵預處理的相關問題。主要包括特徵的歸一化和標準化,異常特徵樣本清洗與樣本資料不平衡問題的處理。1.特徵的標準化和歸一化 由於標準化和歸一化這兩個詞經常混用,所以本文不再區別標準化和歸一化,而通過具體的標準化和歸一化方法來區別具體的預...

特徵工程之特徵預處理

在前面我們分別討論了特徵工程中的特徵選擇與特徵表達,本文我們來討論特徵預處理的相關問題。主要包括特徵的歸一化和標準化,異常特徵樣本清洗與樣本資料不平衡問題的處理。由於標準化和歸一化這兩個詞經常混用,所以本文不再區別標準化和歸一化,而通過具體的標準化和歸一化方法來區別具體的預處理操作。z score標...