1、歸一化是將數值放縮到[0, 1]或者[-1, 1]
常用於機器學習計算多個不同量綱的特徵對映到[0, 1]或者[-1, 1],所以該值受有最大值和最小值決定
2、z-score
由於z-score的資料分布滿足「正態分佈」(n(0,1)),而「正態分佈」又被稱為「z-分布」,所以該方法被稱為「z-score」
z-score是用於做資料規範化處理的一種方法
z-score物理意義
z-score表示原始資料偏離均值的距離長短,而該距離度量的標準是標準方差。
z-score大於零表示該資料大於均值。
z-score小於零表示該資料小於均值。
z-score等於零表示該資料等於均值。
z-score等於「1」表示該資料比均值大乙個標準方差。
z-score等於「-1」表示該資料比均值小乙個標準方差
3、標準化是通過求z-score方法,將列特徵轉化為標準正太分布,和整體樣本分佈相關,每個樣本點都能對標準化產生影響。
歸一化和標準化共同點:都能取消由於量綱不同引起的誤差;都是一種線性變換,都是對向量x按照比例壓縮再進行平移。
除了歸一化和標準化之外,還有中心化,也就是將資料的mean變成0.
一般來說,工程上優先使用標準化,然後再歸一化。
4、什麼時候用歸一化,標準化(參考:
涉及或隱含距離計算的演算法,比如k-means、knn、pca、svm等,一般需要feature scaling
1、zero-mean一般可以增加樣本間余弦距離或者內積結果的差異,區分力更強,假設資料集集中分布在第一象限遙遠的右上角,將其平移到原點處,可以想象樣本間余弦距離的差異被放大了。在模版匹配中,zero-mean可以明顯提高響應結果的區分度。
2、就歐式距離而言,增大某個特徵的尺度,相當於增加了其在距離計算中的權重,如果有明確的先驗知識表明某個特徵很重要,那麼適當增加其權重可能有正向效果,但如果沒有這樣的先驗,或者目的就是想知道哪些特徵更重要,那麼就需要先feature scaling,對各維特徵等而視之。
3、增大尺度的同時也增大了該特徵維度上的方差,pca演算法傾向於關注方差較大的特徵所在的座標軸方向,其他特徵可能會被忽視,因此,在pca前做standardization效果可能更好,如下圖所示,來自scikit learn-importance of feature scaling,
等等5、什麼時候不用歸一化,標準化
與距離計算無關的概率模型,不需要feature scaling,比如***** bayes;
與距離計算無關的基於樹的模型,不需要feature scaling,比如決策樹、隨機森林等,樹中節點的選擇只關注當前特徵在**切分對分類更好,即只在意特徵內部的相對大小,而與特徵間的相對大小無關。
python歸一化處理 python歸一化處理
一 定義 歸一化方法有兩種形式,一種是把數變為 0,1 之間的小數,一種是把有量綱表示式變為無量綱表示式。主要是為了資料處理方便提出來的,把資料對映到0 1範圍之內處理,更加便捷快速。二 目的 不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到資料分析的結果,為了消除指標之間的量綱影響,需...
特徵歸一化的方法 線性歸一化 零均值歸一化
常用歸一化方法 1 線性歸一化,線性歸一化會把輸入資料都轉換到 0 1 的範圍,公式如下 該方法實現對原始資料的等比例縮放,其中xnorm為歸一化後的資料,x為原始資料,xmax xmin分別為原始資料集的最大值和最小值。優點 通過利用變數取值的最大值和最小值將原始資料轉換為界於某一特定範圍的資料,...
資料歸一化
近來,在網上搜了很多關於資料歸一化的帖子,看了太多,很雜,這裡整理總結一下 歸一化是一種資料預處理方法,就是要把你需要處理的資料經過處理後 通過某種演算法 限制在你需要的一定範圍內,為了後面資料處理的方便,其次是保正程式執行時 收斂加快。比如說,對於奇異樣本資料 所謂奇異樣本資料資料指的是相對於其他...