歸一化(normalization)
歸一化可以指把一組資料縮放到[0,1]的範圍內,或者自定義的某個範圍內。也可以指對一組資料縮放,使其的和為1。
其目的是通過把有量綱表示式變為無量綱表示式,有利於不同量綱資料之間的比較、展示等。
主要的歸一化演算法有:
1.線性轉換,即min-max歸一化(常用方法)
x'=(x-min)/(max-min)
2.平均歸一化
x' = (x - μ) / (maxvalue - minvalue)
3. 對數函式轉換
x'=log10(x)
4.反餘切函式轉換
x'=atan(x)*2/π
標準化(standardization)
資料的標準化是通過處理使資料變得較為穩定,沒有特別大或特別小的異常值。
主要方法:
1.z-score標準化,即零-均值標準化
x'=(x-μ)/σ
是統計處理的一種常用方法,基於正態分佈的假設,將原始資料變換為均值為0、標準差為1的符合標準正態分佈的資料。但即使資料不服從正態分佈,也可以用此法。特別適用於資料的最大值和最小值未知,或存在孤立點。
2.小數定標標準化(decimalscaling)
x'=x/10^j (j確保max(|x'|)<1)
本質上就是移動x的小數字置進行標準化。
舉個例子:假定a的值由-436到214,a的最大絕對值為436,為使用小數定標標準化,我們用每個值除以1000(即,j=3),這樣,-436被標準化為-0.436。
3.對數logistic模式
x'=1/(1+e^(-x))
這種方法把資料移動到0~1區間。本質上是在保留了資料相對大小關係資訊的基礎上,對資料進行二分類。
正則化:要求乙個邏輯回歸問題,假設乙個函式,覆蓋所有可能:y=wx,其中w為引數向量,x為已知樣本的向量,用yi表示第i個樣本的真實值,用f(xi)表示樣本的**值,從而確定損失函式l(yi,f(xi))=yi−sigmoid(xi)。該損失函式代表一種誤差。對於該模型y=wx的所有樣本的損失平均值,我們稱為經驗損失(empirical loss)。
顯然,經驗損失(或稱經驗風險)最小化(empirical risk minimization)就是求解最優模型的原則。為了達到這個目的,模型的設定會越來越複雜,最後可能造成模型只適用於當前的樣本集,即出現過擬合(over fitting)問題。
為了解決過擬合問題,通常有兩種辦法,第一是減少樣本的特徵維度;第二就是正則化(又稱懲罰「penalty」)。正則化的一般形式是在整個平均損失函式後增加乙個正則項(常見l2範數正則化,也有其他形式的正則化,它們的作用也不同。詳見
λ=0代表不進行正則化;=1通常代表合適的懲罰;舉個例子=100的時候,會因為過度懲罰而造成「欠擬合」問題。
歸一化,標準化與正則化
歸一化 resaling 一般是將資料對映到指定的範圍,用於去除不同維度放入量綱以及量綱單位。常見的對映範圍有 0,1 和 1,1 最常見的歸一化方法就是min max 歸一化 最常見的標準化方法 z score 標準化。其中 是樣本均值,是樣本資料的標準差。上圖則是乙個散點序列的標準化過程 原圖 ...
正則化和歸一化
正則化,歸一化 標準化和正規化 對資料進行預處理的兩種方式,目的是讓資料更便於計算和獲得更加泛化的結果,但並不改變問題的本質。正則化 要求乙個邏輯回歸問題,假設乙個函式,覆蓋所有可能 y wx,其中w為引數向量,x為已知樣本的向量,用yi表示第i個樣本的真實值,用f xi 表示樣本的 值,從而確定損...
正則化和歸一化
正則化,歸一化 標準化和正規化 對資料進行預處理的兩種方式,目的是讓資料更便於計算和獲得更加泛化的結果,但並不改變問題的本質。正則化 要求乙個邏輯回歸問題,假設乙個函式,覆蓋所有可能 y wx,其中w為引數向量,x為已知樣本的向量,用yi表示第i個樣本的真實值,用f xi 表示樣本的 值,從而確定損...