特徵縮放的一些方法
feature scaling (資料規範化) 是資料探勘或機器學習常用到的步驟,這個步驟有時對演算法的效率和準確率都會產生巨大的影響。
對精度的影響
這個步驟的必要性要依賴於資料特徵的特性,如果有》=2特徵,並且不同特徵間的值變化範圍差異大,那就很有必要使用feature scaling。比如說,在信用卡欺詐檢測中,如果我們只使用使用者的收入作為學習特徵,那就沒有必要做這個步驟。但是如果我們同時使用使用者的收入和使用者年齡兩個特徵的話,在建模之前採用這個步驟就很有可能能提高檢測精度,這是因為使用者收入這個特徵的取值範圍可能為[50000,60000]甚至更大,但使用者年齡只可能是[20,100]左右,這時候,假如說我用k最近鄰的方法去做檢測的話,使用者收入這個特徵的相似度對檢測結果的影響將會大大大於使用者年齡的作用,然而事實上,這兩個特徵對欺詐檢測可能有著同等的重要性。因此,假如我們在檢測實施前,對著兩個特徵進行規範化,那我們的檢測方法中就能真正地同等對待它們。
將資料的特徵縮放到[0,1]或[-1,1]之間。縮放到什麼範圍取決於資料的性質。對於這種方法的公式如下:
是最初的特徵值, x′
是縮放後的值。
xi' = (xi - a) / b
2)其中a可以為特徵xi的均值,b則可以為xi的最大值、(最大值 - 最小值)、 標準差等。
標準化(standardization)
特徵標準化使每個特徵的值有零均值(zero-mean)和單位方差(unit-variance)。這個方法在機器學習地演算法中被廣泛地使用。例如:svm,邏輯回歸和神經網路。這個方法的公式如下:
兩種歸一化方法的適用場景
特徵縮放(Feature Scaling)
1 最大最小值歸一化 min max normalization 將數值範圍縮放到 0,1 區間裡 2 均值歸一化 mean normalization 將數值範圍縮放到 1,1 區間裡,且資料的均值變為0 3 標準化 z值歸一化 standardization z scorenormalizati...
優達筆記 特徵縮放
特徵縮放 特徵縮放這個名字聽起來很膩害的樣子,實際上它講了乙個非常淺顯的方法。例如下面的cameront1身高5.9,體重175,他穿l號的衣服。sarah體重115,身高5.2,她穿s號的衣服。那麼有個人叫chris,他體重140,身高6.1,應該穿了l還是s呢?我們可以合理的猜測一下,chris...
Udacity 機器學習入門 特徵縮放
因為在這裡,體重完全主導了結果,身高的影響微乎其微。而我們應該盡量讓兩者對結果有同等重要的影響。這就引來了特徵縮放 把特徵都限制在 0,1 之間。解釋 特點 縮放後的特徵值總是在0和1之間 def featurescaling arr import numpy as np arr np.array ...