sklearn 特徵工程 預處理

2021-09-26 02:55:03 字數 2299 閱讀 4446

from sklearn.preprocessing import minmaxscaler
案例:

from sklearn.preprocessing import minmaxscaler

defminmaxscaler()

: data =[[

90,2,

10,40]

,[60,

4,15,

45],[

75,3,

13,46]

] mms = minmaxscaler(feature_range=(0

,1))

data = mms.fit_transform(data)

print

(data)

結果

[[1

.0.0

.0.]

[0.1

.1.0.83333333][

0.50.5

0.61.]

]

歸一化受異常點影響太大,標準化基本不受異常點影響

反應偏移平均值的程度。

負,小於平均值

正大於平均值。

絕對值越大,偏移量越大

公式

]]numpy.nan的填充,例如填充為平均值

api

from sklearn.preprocessing import imputer
**

from sklearn.preprocessing import imputer

import numpy as np

deffull()

: data =[[

1,2,

3],[

2,np.nan,1]

,[3,

4,1]

] imputer = imputer(missing_values=

'nan'

,strategy=

'mean'

,axis=0)

# 0是列,1是行

data = imputer.fit_transform(data)

print

(data)

full(

)

[[1

.2.3

.][2

.3.1

.][3

.4.1.]]

特徵工程之特徵預處理

概念 特徵預處理是什麼呢?特徵預處理是通過統計方法 數學方法 將資料轉換成演算法要求的資料,所以特徵預處理也叫做資料預處理。下面是幾種資料預處理的方法 1 數值型資料 標準縮放 1 歸一化2 標準化 2 類別型資料 one hot編碼 3 時間類別 時間的劃分 下面介紹歸一化和標準化歸一化 歸一化 ...

特徵工程之特徵預處理

在前面我們分別討論了特徵工程中的特徵選擇與特徵表達,本文我們來討論特徵預處理的相關問題。主要包括特徵的歸一化和標準化,異常特徵樣本清洗與樣本資料不平衡問題的處理。由於標準化和歸一化這兩個詞經常混用,所以本文不再區別標準化和歸一化,而通過具體的標準化和歸一化方法來區別具體的預處理操作。z score標...

特徵工程之特徵預處理

在前面我們分別討論了特徵工程中的特徵選擇與特徵表達,本文我們來討論特徵預處理的相關問題。主要包括特徵的歸一化和標準化,異常特徵樣本清洗與樣本資料不平衡問題的處理。1.特徵的標準化和歸一化 由於標準化和歸一化這兩個詞經常混用,所以本文不再區別標準化和歸一化,而通過具體的標準化和歸一化方法來區別具體的預...