bn作用:
加速收斂
控制過擬合,可以少用或不用dropout和正則
降低網路對初始化權重不敏感
允許使用較大的學習率
一、如何加速收斂?
通過歸一化輸入值/隱藏單元值,以獲得類似的範圍值,可加速學習。
限制了在前層的引數更新會影響數值分布的程度,使層的輸出更加穩定,神經網路的之後的層就會有更堅實的基礎(減弱了後層的引數因前層引數發生變化而受到的影響) **減弱了前層引數的作用與後層引數的作用之間的聯絡,使得網路每層都可以自己學習,稍稍獨立於其他層,有助於加速整個網路的學習。 **
二、為什麼說bn也會起到一定的正則化作用?
對於dropout來講,給每個隱藏單元一定概率置零的可能,這樣就相當於給網路引入了雜訊。迫使dropout後部單元不過分依賴於前面任何乙個隱藏單元。
而bn,因為是在mini-batch上計算mean、variance,而不是整個資料集上。均值和方差有一些小噪音,在進行縮放過程,γ、β也會引入雜訊,這樣和dropout類似,它往每個隱藏層的啟用值上增加了噪音,所以起到了一定的正則化作用。
當mini-batch變大時,由於均值方差更加接近真實值,所以雜訊會減小,就會減少正則化的效果。
三、使用bn為何可以不使用引數b?
\[z=wx+b
\]無論b為何值,去均值之後結果都是一樣的,所以說,使用batch norm時可以不使用偏置b。
這個偏置的效果在標準化中縮放過程中能體現。
\[\tilde = \gamma z+\beta
\]
深度學習批標準化
傳統機器學習中標準化也叫做歸一化,一般是將資料對映到指定的範圍,用於去除不同維度資料的量綱以及量綱單位。資料標準化讓機器學習模型看到的不同樣本彼此之間更加相似,這有助於模型的學習與對新資料的泛化。常見的資料標準化形式 標準化和歸一化,將資料減去其平均值使其中心為 0,然後將資料除以其標準差使其標準差...
18 批標準化 超引數選擇原則
batch normalization 批標準化和普通的資料標準化類似,是將分散的資料統一的一種方法,也是優化神經網路的一種方法。批標準化,不僅在將資料輸入模型之前對資料做標準化,而且還在網路的每一次變換之後都做標準化。即使在訓練過程中均值和方差隨時間發生變化,它也可以適應性地將資料標準化。我們知道...
資料的標準化和標準化方法
資料的標準化 normalization 是將資料按比例縮放,使之落入乙個小的特定區間。在某些比較和評價的指標處理中經常會用到,去除資料的單位限制,將其轉化為無量綱的純數值,便於不同單位或量綱的指標能夠進行比較和加權。其中最典型的就是資料的歸一化處理,即將資料統一對映到 0,1 區間上,常見的資料歸...