資料標準化是將資料按比例縮放,使其落入到乙個小的區間內,標準化後的資料可正可負,但是一般絕對值不會太大,一般是z-score標準化方法:減去期望後除以標準差。
特點:對不同特徵維度的伸縮變換的目的是使其不同度量之間的特徵具有可比性,同時不改變原始資料的分布。
好處:不改變原始資料的分布,保持各個特徵維度對目標函式的影響權重
對目標函式的影響體現在幾何分布上
在已有樣本足夠多的情況下比較穩定,適合現代嘈雜大資料場景
把數值放縮到0到1的小區間中(歸到數字訊號處理範疇之內),一般方法是最小最大規範的方法:min-max normalization
上面min-max normalization是線性歸一化,還有非線性歸一化,通過一些數學函式,將原始值進行對映。該方法包括log、指數、反正切等。需要根據資料分布的情況,決定非線性函式的曲線。
log函式:x = lg(x)/lg(max);反正切函式:x = atan(x)*2/pi
應用:1.無量綱化
例如房子數量和收入,從業務層知道這兩者的重要性一樣,所以把它們全部歸一化,這是從業務層面上作的處理。
2.避免數值問題
不同的資料在不同列資料的數量級相差過大的話,計算起來大數的變化會掩蓋掉小數的變化。
3.一些模型求解的需要
例如梯度下降法,如果不歸一化,當學習率較大時,求解過程會呈之字形下降。學習率較小,則會產生直角形路線,不管怎麼樣,都不會是好路線(路線解釋看西面歸一化和標準化的對比)。解釋神經網路梯度下降的文章。
4.時間序列
進行log分析時,會將原本絕對化的時間序列歸一化到某個基準時刻,形成相對時間序列,方便排查。
5.收斂速度
加快求解過程中引數的收斂速度。
特點:對不同特徵維度進行伸縮變換
改變原始資料的分布,使得各個特徵維度對目標函式的影響權重歸於一致(使得扁平分布的資料伸縮變換成類圓形)
對目標函式的影響體現在數值上
把有量綱表示式變為無量綱表示式
歸一化可以消除量綱對最終結果的影響,使不同變數具有可比性。比如兩個人體重差10kg,身高差0.02m,在衡量兩個人的差別時體重的差距會把身高的差距完全掩蓋,歸一化之後就不會有這樣的問題。
好處:提高迭代求解的收斂速度
提高迭代求解的精度
缺點:最大值與最小值非常容易受異常點影響
魯棒性較差,只適合傳統精確小資料場景
1、在分類、聚類演算法中,需要使用距離來度量相似性的時候、或者使用pca技術進行降維的時候,標準化(z-score standardization)表現更好。
2、在不涉及距離度量、協方差計算、資料不符合正太分布的時候,可以使用歸一化方法。比如影象處理中,將rgb影象轉換為灰度影象後將其值限定在[0 255]的範圍。
在求解最優化問題中,調節擬合程度的引數一般稱為正則項,越大表明欠擬合,越小表明過擬合
為了解決過擬合問題,通常有兩種方法,第一是減小樣本的特徵(即維度),第二是正則化(又稱為懲罰penalty)
正則化的一般形式是在整個平均損失函式的最後增加乙個正則項(l2範數正則化,也有其他形式的正則化,作用不同)
正則項越大表明懲罰力度越大,等於0表示不做懲罰。
正則項越小,懲罰力度越小,極端為正則項為0,則會造成過擬合問題;正則化越大,懲罰力度越大,則容易出現欠擬合問題。
歸一化,標準化與正則化
歸一化 resaling 一般是將資料對映到指定的範圍,用於去除不同維度放入量綱以及量綱單位。常見的對映範圍有 0,1 和 1,1 最常見的歸一化方法就是min max 歸一化 最常見的標準化方法 z score 標準化。其中 是樣本均值,是樣本資料的標準差。上圖則是乙個散點序列的標準化過程 原圖 ...
歸一化 標準化 正則化
無量綱化使不同規格的資料轉換到同一規格。常用的無量綱化方法有標準化和區間縮放法。標準化的前提是特徵值服從正態分佈,標準化後,其轉換成標準正態分佈 區間縮放法利用了邊界值資訊,將特徵的取值區間縮放到某個特點的範圍,例如 0,1 等。標準化的前提是特徵值服從正態分佈,標準化後,其轉換成標準正態分佈 z ...
標準化 歸一化 正則化
x x x min x max x min 歸一化後的資料取值區間為 0,1 from sklearn.preprocessing import minmaxscaler import numpy as np data np.random.uniform 0,100,10 np.newaxis 隨機...