1)加快梯度下降求解速度
如下圖所示,藍色的圈圈圖代表的是兩個特徵的等高線。其中左圖兩個特徵x1和x2的區間相差非常大,x1區間是[0,2000],x2區間是[1,5],其所形成的等高線非常尖。當使用梯度下降法尋求最優解時,很有可能走「之字型」路線(垂直等高線走),從而導致需要迭代很多次才能收斂;
而右圖對兩個原始特徵進行了歸一化,其對應的等高線顯得很圓,在梯度下降進行求解時能較快的收斂。
因此如果機器學習模型使用梯度下降法求最優解時,歸一化往往非常有必要,否則很難收斂甚至不能收斂。
2)歸一化提高精度
對於一些依賴於樣本距離的應用來說,比如knn,通過求解與樣本之間的距離來進行分類。這時候如果樣本過大,那麼它將占有主導作用,可能會影響分類的結果。
2.歸一化的型別
這種歸一化方法比較適用在數值比較集中的情況。這種方法有個缺陷,如果max和min不穩定,很容易使得歸一化結果不穩定,使得後續使用效果也不穩定。實際使用中可以用經驗常量值來替代max和min。
經過處理的資料符合標準正態分佈,即均值為0,標準差為1,其轉化函式為:
其中μ為所有樣本資料的均值,σ為所有樣本資料的標準差。
經常用在資料分化比較大的場景,有些數值很大,有些很小。通過一些數學函式,將原始值進行對映。該方法包括 log、指數,正切等。需要根據資料分布的情況,決定非線性函式的曲線,比如log(v, 2)還是log(v, 10)等。
posted on 2018-05-05 19:40收藏
向量歸一化 傅利葉變換與向量空間
建議建議閱讀原文 預備知識傅利葉變換 我們知道傅利葉級數 可以從向量空間的角度理解,而傅利葉變換可以看作傅利葉級數區間取無窮大時的極限,所以我們以下使用一種 幼稚 的觀點,從向量空間的角度來理解傅利葉變換 模擬傅利葉級數,我們仍然可以將傅利葉變換看作是向量空間中兩組正交歸一基底之間的變換,我們分別把...
特徵向量的歸一化方法
在使用knn k nearest neighbours 根據特徵值進行分類的時候,如果所有變數位於同一值域範圍內,利用這些變數一次性算出距離值是有意義的。不過,假設我們引入乙個對最終的分類結果產生影響的新變數 不同型別的變數 heterogenous varibales 與我們目前使用過的變數不同 ...
向量X的歸一化及其Matlab簡單示例
come from 歸一化是要把需要處理的資料經過處理後限制在一定範圍內,例如 1,1 或 0,1 歸一化是為了後續資料處理的方便,也使得演算法程式收斂加快。在matlab裡面,歸一化的方法共有3種 1 mapminmax 範圍對映 2 mapstd 均值與偏差 3 自定義函式 在資料預處理過程中,...