機器學習中的歸一化

2021-09-08 16:33:11 字數 1166 閱讀 2810

歸一化常用的方法

歸一化與其中標準化的區別

使用標準化與歸一化的場景

哪些機器學習書演算法不需要歸一化

歸一化後加快了梯度下降求最優解的速度;

歸一化有可能提高精度

如上圖所示,藍色圓圈代表兩個特徵的的等高線。

左圖中兩個特徵區別相差特別大。其中乙個特徵x1的區間是[0,2000],乙個特徵x2[1,5],所形成的等高線比較尖銳。當時用梯度下降法時,很可能要垂直等高線走,需要很多次迭代才能收斂。

右圖中對兩個原始特徵進行了歸一化處理,其對應的等高線相對來說比較圓,在梯度下降時,可以較快的收斂。

有些分類器需要計算樣本之間的距離,例如k-means。如果乙個特徵的值域範圍特別大。那麼距離計算就主要取決於這個特徵,有時會與實際情況相違背。(比如這時實際情況是值域範圍小的特徵更重要)

線性比例變換法

y i=

xima

x(x)

y_i=\frac

yi​=ma

x(x)

xi​​

極差變換法:

y i=

xi−m

in(x

)max

(x)−

min(

x)y_i=\frac

yi​=ma

x(x)

−min

(x)x

i​−m

in(x

)​其中max為樣本資料的最大值,min為樣本資料的最小值,這種方法有缺陷

1)當有新資料加入時,可能導致max和min的變化,需要重新定義

2)存在極端的最大最小值

0均值標準化(z-score方法標準化)

y i=

xi−m

ean(

x)σy_i=\frac

yi​=σx

i​−m

ean(

x)​

概率模型不需要歸一化,因為它們不關心變數的值,而是關心變數的分布和變數之間的條件概率,如決策樹、rf。而像 adaboost、svm、lr、knn、kmeans 之類的最優化問題就需

要歸一化。

機器學習中的歸一化問題

針對這個問題參考了wiki的解釋 歸一化後有兩個好處 1 歸一化後加快了梯度下降求最優解的速度 2 歸一化有可能提高精度 1 歸一化為什麼能提高梯度下降法求解最優解的速度?如下圖所示,藍色的圈圈圖代表的是兩個特徵的等高線。其中左圖兩個特徵x1和x2的區間相差非常大,x1區間是 0,2000 x2區間...

機器學習中的歸一化方法

在這裡主要討論兩種歸一化方法 線性函式將原始資料線性化的方法轉換到 0 1 的範圍,歸一化公式如下 該方法實現對原始資料的等比例縮放,其中xnorm為歸一化後的資料,x為原始資料,xmax xmin分別為原始資料集的最大值和最小值。python實現 preprocessing.minmaxscale...

機器學習之 歸一化

之前我們討論了幾個機器學習的模型,線性回歸模型 linear regression 和邏輯回歸模型 logistic regression 這一次我們討論一下關於模型資料擬合的問題以及歸一化方法 regularization 過擬合問題 the problem of overfitting 如果我們...