每個特徵的數值差異大小會造成分析結果的偏向,例如:身高(m)與體重(kg),1.6m與1.8m的差距只有0.2m,而體重的差距可能達到100-50=50kg的差距,此時用體重去分類結果顯而易見,也即此時體重對分析結果影響較大。
見下圖:
從此圖可以看出,身高相對體重失去決策能力,而體重卻具有良好非線性去進行決策。所以說為了消除量綱造成的決策能力不同,我們需要進行特徵歸一化,標準化,使特徵處於同一數量值之間,更好的利用多特徵進行決策分析。
注:對數值型別的特徵做歸一化、標準化可以將所有特徵對應的特徵值統一到乙個大致相同的特徵區間
1.線性函式歸一化(min-max scaling)
2.零均值標準化(z-score standardization)
注:它會將所有樣本對應特徵x上的值對映到均值為0,標準差為1的分布上
(二)歸一化,標準化的優勢:
1.可以使各個特徵的值處於大致相同的數值區間,便於多特徵分析,而不會偏向某一特徵差別較大的特徵。
2.可以更快的通過梯度下降的方式得到最優解
(三)在實際應用中,哪些需要歸一化(標準化)
1.首先,通過梯度下降法求解的模型肯定需要歸一化,因為歸一化後,各個特徵的更新速度變得一致,也即更快通過梯度下降找到最優解。
2.使用梯度下降法求解的模型:線性回歸、logistic回歸、svm、前向神經網路、迴圈神經網路等
3.不適用於決策樹模型,特徵是否歸一化不會改變資訊增益或者gini增益(增益與labels有關)
資料標準化(歸一化)
資料標準化 歸一化 處理是資料探勘的一項基礎工作,不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到資料分析的結果,為了消除指標之間的量綱影響,需要進行資料標準化處理,以解決資料指標之間的可比性。原始資料經過資料標準化處理後,各指標處於同一數量級,適合進行綜合對比評價。以下是兩種常用的歸一...
資料標準化 歸一化
資料標準化 歸一化 處理是資料探勘的一項基礎工作,不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到資料分析的結果,為了消除指標之間的量綱影響,需要進行資料標準化處理,以解決資料指標之間的可比性。原始資料經過資料標準化處理後,各指標處於同一數量級,適合進行綜合對比評價。以下是兩種常用的歸一...
資料標準化 歸一化
公式 x x x frac x x 公式 x x xm inxm ax x mi nx frac x x xma x x min x xm in 公式 x x xm ax x frac x xm ax x 注 該方法用於稀疏資料。公式 x x xm edia niqr x frac x iqr x ...