資料預處理 輸入歸一化 標準化 放縮

2021-09-02 12:55:58 字數 636 閱讀 1858

alex 和 caffe中的初始化引數都是基於均值歸一化的,如果不做歸一化,會因為輸入大了一半,導致訓練失敗。這也是為什麼caffe強制為樣本計算影象均值的原因。

這樣,畫素值[0,255]被調整成了近似[-128,128]。儘管影象資料格式規整,但是做一做歸一化還是挺有用處的。

歸一化本身是一種降低特徵之間差異的手段,不一定就可以增強discriminative ability,應該慎重使用。

訓練樣本均值歸一化。即對訓練集所有樣本計算各個維度的均值(比如32x32影象,就應該有32x32個均值)並且將均值儲存起來。

訓練網路時,訓練集、驗證集減去存起來的均值。

測試網路時,測試集減去存起來的均值(一定要全減去訓練集的均值)。

減去均值後,又乘以了0.0167。簡單來說,就是減均值除以標準差。這裡對應輸入為0-255的情形。

0.0167表示的是方差歸一化,不同資料集用不同的值為的是normalize input,減去均值除以std得到均值為0std為1的資料組。

取0.0167初衷是用它來近似代替除以標準差。在imagenet上,輸入資料的bgr三通道均值是[104,117,123]左右,而標準差在[57.1,57.4,58.4]左右,相差很小,都近似取58。然後,除以標準差,就是x/58=x*(1/58)≌x*0.017。

sklearn資料預處理 歸一化 標準化

1 把數變為 0,1 之間的小數 主要是為了資料處理方便提出來的,把資料對映到0 1範圍之內處理,更加便捷快速。2 把有量綱表示式變為無量綱表示式 歸一化是一種簡化計算的方式,即將有量綱的表示式,經過變換,化為無量綱的表示式,成為純量。歸一化演算法有 1.線性轉換 y x minvalue maxv...

資料預處理 歸一化 標準化詳解

一般而言,樣本的原始特徵中的每一維特徵由於 以及度量單位不同,其特徵取值的分布範圍往往差異很大,比如身高 體重 血壓等它們的度量和分布範圍往往是不一樣的。當我們計算不同樣本之間的歐氏距離時,取值範圍大的特徵會起到主導作用。這樣,對於基於相似度比較的機器學習方法 比如最近鄰分類器 必須先對樣本進行預處...

資料預處理 歸一化與z score標準化

歸一化 歸一化是一種簡化計算的方式,即將有量綱 的表示式,經過變換,化為 無量綱的表示式,成為 標量。在多種 計算中都經常用到這種方法。線性函式轉換 y x minvalue maxvalue minvalue 說明 x y分別為轉換前 後的值,maxvalue minvalue分別為樣本的最大值和...