正則化,歸一化(標準化和正規化):對資料進行預處理的兩種方式,目的是讓資料更便於計算和獲得更加泛化的結果,但並不改變問題的本質。
正則化:要求乙個邏輯回歸問題,假設乙個函式,覆蓋所有可能:y=wx,其中w為引數向量,x為已知樣本的向量,用yi表示第i個樣本的真實值,用f(xi)表示樣本的**值,從而確定損失函式l(yi,f(xi))=yi−sigmoid(xi)。該損失函式代表一種誤差。對於該模型y=wx的所有樣本的損失平均值,我們稱為經驗損失(empirical loss)。
顯然,經驗損失(或稱經驗風險)最小化(empirical risk minimization)就是求解最優模型的原則。為了達到這個目的,模型的設定會越來越複雜,最後可能造成模型只適用於當前的樣本集,即出現過擬合(over fitting)問題。
為了解決過擬合問題,通常有兩種辦法,第一是減少樣本的特徵維度;第二就是正則化(又稱懲罰「penalty」)。正則化的一般形式是在整個平均損失函式後增加乙個正則項(常見l2範數正則化,也有其他形式的正則化,它們的作用也不同。詳見
λ=0代表不進行正則化;=1通常代表合適的懲罰;舉個例子=100的時候,會因為過度懲罰而造成「欠擬合」問題
歸一化:主要看模型是否具有伸縮不變性。有些模型在各個維度進行不均勻伸縮後,最優解和原來不等價,例如svm。
對於這樣的模型,除非本來各維資料的分布範圍就比較接近,否則必須進行標準化,以免模型引數被分布範圍較大或較小的資料支配。
有些模型在各個維度進行不均勻伸縮後,最優解和原來等價,例如logistic regression(邏輯回歸)。
對於這樣的模型,是否標準化理論上不會改變最優解。但是,由於實際求解往往使用迭代演算法,如果目標函式的形狀太扁,迭代演算法可能收斂得很慢甚至不收斂。所以對於具有伸縮不變性的模型,最好也進行資料標準化。
正則化和歸一化
正則化,歸一化 標準化和正規化 對資料進行預處理的兩種方式,目的是讓資料更便於計算和獲得更加泛化的結果,但並不改變問題的本質。正則化 要求乙個邏輯回歸問題,假設乙個函式,覆蓋所有可能 y wx,其中w為引數向量,x為已知樣本的向量,用yi表示第i個樣本的真實值,用f xi 表示樣本的 值,從而確定損...
歸一化 標準化和正則化
歸一化一般是將資料對映到指定的範圍,用於去除不同維度資料的量綱以及量綱單位。常見的對映範圍有 0,1 和 1,1 最常見的歸一化方法就是 min max 歸一化 舉個例子,我們判斷乙個人的身體狀況是否健康,那麼我們會採集人體的很多指標,比如說 身高 體重 紅細胞數量 白細胞數量等。乙個人身高 180...
正則化與歸一化
歸一化 normalization 歸一化可以指把一組資料縮放到 0,1 的範圍內,或者自定義的某個範圍內。也可以指對一組資料縮放,使其的和為1。其目的是通過把有量綱表示式變為無量綱表示式,有利於不同量綱資料之間的比較 展示等。主要的歸一化演算法有 1.線性轉換,即min max歸一化 常用方法 x...