不同的評價標準往往具有不同的量綱和單位。在進行資料分析的時候,我們需要消除這些評價標準之間的影響,進行資料標準化,使得各個指標處於同一數量級。
將數轉化為(0,1)之間的小數,一般為min-max標準化,適用於有邊界的訓練集。
將資料無量綱化,一般為z-score標準化方法。
對於每乙個標準裡的變數,我們減去標準中的最小值除以最大值減去最小值
對於每乙個標準裡的變數,我們減去標準中的均值再除以標準差
x ^=
x−x(
mean
)x(s
td)\hat = \frac
x^=x(s
td)x
−x(m
ean)
import numpy as np
import matplotlib.pyplot as plt
x = np.random.randint(0,
10, size=
200)
z_score =
(x - np.mean(x))/
(np.std(x)
)plt.plot(x)
plt.plot(z_score)
plt.show(
)
資料預處理 歸一化
歸一化是一種資料預處理方法,就是要把你需要處理的資料經過處理後 通過某種演算法 限制在你需要的一定範圍內,為了後面資料處理的方便,其次是保正程式執行時 收斂加快 歸一化的三種方法 1 線性函式轉換 表示式如下 y x minvalue maxvalue minvalue 說明 x y分別為轉換前 後...
資料預處理 歸一化
由於進行分類器或模型的建立與訓練時,輸入的資料範圍可能比較大,同時樣本中各資料可能量綱不一致,這樣的資料容易對模型訓練或分類器的構建結果產生影響,因此需要對其進行歸一化處理。那就是將該樣本 樣本集中第i行資料 歸一到範圍 0,1 之間。一種簡單而快速的標準歸一化處理演算法是線性轉換演算法,最為常見的...
資料預處理 歸一化
1 公式 x numpy array格式的資料 n samples,n features n samples 樣本數 n features 特徵數 列 返回值 形狀相同的array 3 缺點 由於歸一化使用最大值最小值進行計算,若最大值 最小值缺失或錯誤,歸一化結果的準確性就會大大降低,為此可採用標...