資料預處理 歸一化與z score標準化

2021-08-14 04:04:22 字數 935 閱讀 7228

歸一化:

歸一化是一種簡化計算的方式,即將有量綱

的表示式,經過變換,化為

無量綱的表示式,成為

標量。 在多種

計算中都經常用到這種方法。

線性函式轉換:

y=(x-minvalue)/(maxvalue-minvalue)

說明:x、y分別為轉換前、後的值,maxvalue、minvalue分別為樣本的最大值和最小值。

對數函式轉換:

y=log10(x)

說明:以10為底的

對數函式

轉換。

反正切函式轉換:

y=atan(x)*2/pi

z-score標準化:

標準分數(standard score)也叫z分數(z-score),是乙個分數與

平均數的差再除以

標準差的過程。

用公式表示為:

z=(x-μ)/σ。其中x為某一具體分數,

μ為平均數,σ為標準差。

z值的量代表著原始分數和母體平均值之間的距離,是以標準差為單位計算。在原始分數低於平均值時z則為負數,反之則為正數。

標準分數可以回答這樣乙個問題:"乙個給定分數距離平均數多少個標準差?"在平均數之上的分數會得到乙個正的標準分數,在平均數之下的分數會得到乙個負的標準分數。 注:

標準差計算公式:

假設有一組數值x₁,x₂,x₃,......xn(皆為

實數),其

平均值(

算術平均值)為μ,公式如圖1。

標準差也被稱為

標準偏差,或者實驗標準差,公式為

。簡單來說,標準差是一組資料

平均值分散程度的一種度量。乙個較大的標準差,代表大部分數值和其平均值之間差異較大;乙個較小的標準差,代表這些數值較接近平均值。

引自:

資料預處理 歸一化

歸一化是一種資料預處理方法,就是要把你需要處理的資料經過處理後 通過某種演算法 限制在你需要的一定範圍內,為了後面資料處理的方便,其次是保正程式執行時 收斂加快 歸一化的三種方法 1 線性函式轉換 表示式如下 y x minvalue maxvalue minvalue 說明 x y分別為轉換前 後...

資料預處理 歸一化

由於進行分類器或模型的建立與訓練時,輸入的資料範圍可能比較大,同時樣本中各資料可能量綱不一致,這樣的資料容易對模型訓練或分類器的構建結果產生影響,因此需要對其進行歸一化處理。那就是將該樣本 樣本集中第i行資料 歸一到範圍 0,1 之間。一種簡單而快速的標準歸一化處理演算法是線性轉換演算法,最為常見的...

資料預處理 歸一化

1 公式 x numpy array格式的資料 n samples,n features n samples 樣本數 n features 特徵數 列 返回值 形狀相同的array 3 缺點 由於歸一化使用最大值最小值進行計算,若最大值 最小值缺失或錯誤,歸一化結果的準確性就會大大降低,為此可採用標...