from sklearn.preprocessing import minmaxscaler
案例:
from sklearn.preprocessing import minmaxscaler
defminmaxscaler()
: data =[[
90,2,
10,40]
,[60,
4,15,
45],[
75,3,
13,46]
] mms = minmaxscaler(feature_range=(0
,1))
data = mms.fit_transform(data)
print
(data)
結果
[[1
.0.0
.0.]
[0.1
.1.0.83333333][
0.50.5
0.61.]
]
歸一化受異常點影響太大,標準化基本不受異常點影響
反應偏移平均值的程度。
負,小於平均值
正大於平均值。
絕對值越大,偏移量越大
公式
]]numpy.nan的填充,例如填充為平均值
api
from sklearn.preprocessing import imputer
**
from sklearn.preprocessing import imputer
import numpy as np
deffull()
: data =[[
1,2,
3],[
2,np.nan,1]
,[3,
4,1]
] imputer = imputer(missing_values=
'nan'
,strategy=
'mean'
,axis=0)
# 0是列,1是行
data = imputer.fit_transform(data)
print
(data)
full(
)
[[1
.2.3
.][2
.3.1
.][3
.4.1.]]
特徵工程之特徵預處理
概念 特徵預處理是什麼呢?特徵預處理是通過統計方法 數學方法 將資料轉換成演算法要求的資料,所以特徵預處理也叫做資料預處理。下面是幾種資料預處理的方法 1 數值型資料 標準縮放 1 歸一化2 標準化 2 類別型資料 one hot編碼 3 時間類別 時間的劃分 下面介紹歸一化和標準化歸一化 歸一化 ...
特徵工程之特徵預處理
在前面我們分別討論了特徵工程中的特徵選擇與特徵表達,本文我們來討論特徵預處理的相關問題。主要包括特徵的歸一化和標準化,異常特徵樣本清洗與樣本資料不平衡問題的處理。由於標準化和歸一化這兩個詞經常混用,所以本文不再區別標準化和歸一化,而通過具體的標準化和歸一化方法來區別具體的預處理操作。z score標...
特徵工程之特徵預處理
在前面我們分別討論了特徵工程中的特徵選擇與特徵表達,本文我們來討論特徵預處理的相關問題。主要包括特徵的歸一化和標準化,異常特徵樣本清洗與樣本資料不平衡問題的處理。1.特徵的標準化和歸一化 由於標準化和歸一化這兩個詞經常混用,所以本文不再區別標準化和歸一化,而通過具體的標準化和歸一化方法來區別具體的預...