神經網路訓練之資料歸一化處理

神經網路訓練之資料歸一化處理。在機器學習中領域中的資料分析之前，通常需要將資料標準化，利用標準化後得資料進行資料分析。不同評價指標往往具有不同的量綱和量綱單位，這樣的情況會影響到資料分析的結果，為了消除指標之間的量綱影響，需要進行資料標準化處理，以解決資料指標之間的可比性。原始資料經過資料標準化處理後，各指標處於同一數量級，適合進行綜合對比評價。

contents

1. 歸一化的定義

2. 常用歸一化方法

1. 歸一化的定義

歸一化用一句話說就是：把資料經過處理後使之限定在一定的範圍內。比如通常限制在區間[0, 1]或者[-1, 1]

等等。那麼為什麼要進行歸一化呢？那麼首先要說到乙個重要的概念，即奇異樣本資料。所謂奇異樣本資料資料

指的是相對於其他輸入樣本特別大或特別小的樣本向量。舉個例子，比如下面的兩個特徵樣本資料

上面第五列的資料相對於其它的列的資料就是奇異樣本資料，奇異樣本資料的存在會引起訓練時間增大，並可能引

起無法收斂。所以在存在奇異樣本資料的情況下，進行訓練之前最好進行歸一化，如果不存在奇異樣本資料，則可

以不用歸一化。

2. 常用歸一化方法

常用歸一化方法有最大-最小標準化，z-score標準化，函式轉化等等。

（1）最大-最小標準化

最大-最小標準化是對原始資料進行線性變換，設

和分別是屬性

的最小值和最大值，將

的乙個原始值

通過最大-最小標準化對映到區間[0, 1]的值

，那麼公式如下

疑問：此處由於奇異樣本的存在，導致歸一化後前四列資料分散不開，全湊在乙個非常小的數左右，比如進行[0，1]之間的歸一化，前四列歸一化後非常靠近0，最後一列非常靠近1，樣本多樣性較差。是否合理？

（2）z-score標準化

z-score標準化是基於原始資料的均值和標準差進行的資料標準化。將屬性

的原始資料

通過z-score標

準化成。z-score標準化適用於屬性

的最大值或者最小值未知的情況，或有超出取值範圍的離散資料的

情況。其中

為均值，

為標準差。

z-score標準化得到的結果是所有資料都聚集在0附近，方差為1。

還有一些歸一化方法，如對數函式轉換，反餘切函式轉換等方法用的不多，暫時就不講了。

神經網路訓練之資料歸一化處理

神經網路訓練之資料歸一化處理

歸一化處理資料 python

Sklearn 資料歸一化處理

神經網路訓練之資料歸一化處理

神經網路訓練之資料歸一化處理

歸一化處理資料 python

Sklearn 資料歸一化處理

相關推薦