資料預處理方法 特徵標準化

2021-09-13 09:31:36 字數 520 閱讀 3578

普遍採用的最佳實踐是對每

個特徵做標準化,即對於輸入資料的每個特徵(輸入資料矩陣中的列),減去特徵平均值,再除

以標準差,這樣得到的特徵平均值為 0,標準差為 1。用 numpy 可以很容易實現標準化。

from keras.datasets import boston_housing

(train_data, train_targets), (test_data, test_targets) = boston_housing.load_data()

print(train_data[0])

mean = train_data.mean(axis=0)

train_data -= mean

print(train_data[0])

std = train_data.std(axis=0)

train_data /= std

print(train_data[0])

test_data -= mean

test_data /= std

資料預處理之特徵標準化

在資料分析之前,我們通常需要先將資料標準化 normalization 利用標準化後的資料進行資料分析。資料標準化也就是統計資料的指數化。資料標準化處理主要包括資料同趨化處理和無量綱化處理兩個方面。資料同趨化處理主要解決不同性質資料問題,對不同性質指標直接加總不能正確反映不同作用力的綜合結果,須先考...

資料預處理 資料標準化

x train np.array 1,1,2 2,0,0 0,1,1 min max scaler preprocessing.minmaxscaler x train minmax min max scaler.fit transform x train print x train minmax ...

資料預處理之標準化

近來趁專案間隔期,工作不是太多,也在利用空餘時間把資料分析的完整流程用python實現一遍,也恰好整理下這幾年手頭的一些資料,順序可能比較亂,後期再慢慢調整。資料的標準化 normalization 是將資料按照一定規則縮放,使之落入乙個小的特定區間。這樣去除資料的單位限制,將其轉化為無量綱的純數值...