均值為0,標準差為1
from sklearn import preprocessing
scaler = preprocessing.standardscaler(
)scaler.fit_transform(x)
對原始資料進行線性變換,變換到[0,1]區間(也可以是其他固定最小最大值的區間)
from sklearn import preprocessing
scaler = preprocessing.minmaxscaler(feature_range=(0
,1))
scaler.fit_transform(x)
from sklearn import preprocessing
x_normalized = preprocessing.normalize(x, norm=
'l2'
)x_normalized = preprocessing.normalize(x, norm=
'l1'
)
離散特徵值的編碼方式,類別特徵編碼
from sklearn import preprocessing
encoder = preprocessing.onehotencoder(
)encoder.fit_transform(data)
.toarray(
)
給定閾值,將特徵轉換為0/1
from sklearn import preprocessing
binarizer = preprocessing.binarizer(threshold=
1.1)
binarizer.transform(x)
from sklearn import preprocessing
le = preprocessing.labelencoder(
) le.fit_transform(data)
機器學習 資料預處理
1 連續資料特徵離散化的方法 由於lr 中模型表達能力有限,可以通過特徵離散化來提高非線性學習能力。主要方法 1 等距離散 取值範圍均勻劃分成n 等分,每份的間距相等。2 等頻離散 均勻分為n 等分,每份內包含的觀察點數相同 3 優化離散 3 1 卡方檢驗方法 統計樣本的實際觀測值與理論判斷值之間的...
機器學習python資料預處理
from pandas import read csv from sklearn.preprocessing import standardscaler from numpy import set printoptions from sklearn.preprocessing import minm...
機器學習之資料預處理
1.為什麼需要資料預處理?原始資料來自於現實場景,常常有以下幾個特徵 髒 亂 差 缺。髒體現在原始資料裡混雜許多雜訊資料,亂體現在原始資料各維度量綱不同一。差體現在資料錯誤 出現不尋常不一致,這和髒相似。缺體現在原始資料的某些資料段值的缺失。2.資料預處理的方法。歸一化 標準化和中心化是資料預處理中...