本文**
感謝原作者的付出和分享
在機器學習中領域中的資料分析之前,通常需要將資料標準化,利用標準化後得資料進行資料分析。不同評價指標往 往具
有不同的量綱和量綱單位,這樣的情況會影響到資料分析的結果,為了消除指標之間的量綱影響,需要進行資料
標準化處
理,以解決資料指標之間的可比性。原始資料經過資料標準化處理後,各指標處於同一數量級,適合進行綜
合對比評價。
contents
1. 歸一化的定義
2. 常用歸一化方法
1. 歸一化的定義
歸一化用一句話說就是:把資料經過處理後使之限定在一定的範圍內。比如通常限制在區間[0, 1]或者[-1, 1]
等等。那麼為什麼要進行歸一化呢? 那麼首先要說到乙個重要的概念,即奇異樣本資料。所謂奇異樣本資料資料
指的是相對於
其他輸入樣本特別大或特別小的樣本向量。舉個例子,比如下面的兩個特徵樣本資料
上面第五列的資料相對於其它的列的資料就是奇異樣本資料,奇異樣本資料的存在會引起訓練時間增大,並可能引 起
無法收斂。所以在存在奇異樣本資料的情況下,進行訓練之前最好進行歸一化,如果不存在奇異樣本資料,則可 以不
用歸一化。
2. 常用歸一化方法
常用歸一化方法有最大-最小標準化,z-score標準化,函式轉化等等。
(1)最大-最小標準化
最大-最小標準化是對原始資料進行線性變換,設
個原始值
疑問:此處由於奇異樣本的存在,導致歸一化後前四列資料分散不開,全湊在乙個非常小的數左右,比如進行[0,1]之間的歸一化,前四列歸一化後非常靠近0,最後一列非常靠近1,樣本多樣性較差。是否合理?
(2)z-score標準化
z-score標準化是基於原始資料的均值和標準差進行的資料標準化。將屬性
準化成情況。
其中z-score標準化得到的結果是所有資料都聚集在0附近,方差為1。
還有一些歸一化方法,如對數函式轉換,反餘切函式轉換等方法用的不多,暫時就不講了。
神經網路訓練之資料歸一化處理
神經網路訓練之資料歸一化處理。在機器學習中領域中的資料分析之前,通常需要將資料標準化,利用標準化後得資料進行資料分析。不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到資料分析的結果,為了消除指標之間的量綱影響,需要進行資料標準化處理,以解決資料指標之間的可比性。原始資料經過資料標準化處理...
歸一化處理資料 python
源自 machine learning in action 1.原因 例如在用 knn 演算法處理資料時,比如有兩個特徵,乙個特徵的取值範圍為0 1,另乙個取值範圍為1w 以上,那麼用歐式距離計算的話第乙個特徵的影響幾乎就會微不足道,為了解決這個問題,在處理資料的時候對資料進行歸一化處理。2.def...
Sklearn 資料歸一化處理
中心化的本質是讓所有記錄減去乙個固定值,即讓資料樣本資料平移到 某個位置。縮放的本質是通過除以乙個固定值,將資料固定在某個範圍之中,取對數也算是一種縮放處理。minmaxscaler有乙個重要引數,feature range,控制我們希望把資料壓縮到的範圍,預設是 0,1 pd.dataframe ...