資料的規範化,歸一化,標準化,正則化
打濕井蓋
資料的規範化,歸一化,標準化,正則化,這幾個破詞整得我頭暈,首先這些詞就沒規範好,對資料做實驗更暈,網上狂搜一陣後,發現資料
歸一化,標準化,正則化,還是有差別
資料規範化
一種是針對資料庫的解釋
規範化理論把關係應滿足的規範要求分為幾級,滿足最低要求的一級叫做第一正規化(1nf),在第一正規化的基礎上提出了第二正規化(2nf),在第二正規化的基礎上又提出了第三正規化(3nf),以後又提出了bcnf正規化,4nf,5nf。正規化的等級越高,應滿足的約束集條件也越嚴格。
另一種是就是對資料而言,一直想把資料的規範化的概念與歸一化,標準化,正則化區分清楚。糾結一陣後個人認為,資料的規範化包含了
歸一化,標準化,正則化,是乙個統稱(也有人把標準化做為統稱,)。針對不同的問題作用也不同。
資料規範化是資料探勘中資料變換的一種方式,資料變換將資料轉換或統一成適合於挖掘的形式。而資料規範化是指將被挖掘物件的屬性資料按比例縮放,使其落入乙個小的特定區間(如[-1,1]或[0,1])。
對屬性值進行規範化常用於涉及神經網路或距離度量的分類演算法和聚類演算法中。比如使用神經網路向後傳播演算法進行分類挖掘時,對訓練元組中度量每個屬性的輸入值進行規範化有助於加快學習階段的速度。對於基於距離度量相異度的方法,資料規範化可以讓所有的屬性具有相同的權重。
資料規範化的常用方法有三種:按小數定標規範化、最小-最大值規範化和z-score規範化。
(1) 最小-最大規範化對原始資料進行線性變換。
zi=xi-xmin/xmax-xmin
其中:zi為指標的標準分數,xi為某鎮某指標的指標值,xmax為全部鎮中某指標的最大值,xmin為全部鎮中某指標的最小
(2) z-score規範化也稱零-均值規範化。屬性a的值是基於a的平均值與標準差規範化。
公式為:(x-mean(x))/std(x)
(3) 小數定標規範化
通過移動屬性值的小數點位置進行規範化,通俗的說就是將屬性值除以10的j次冪。
如j=3,
-986
規範化後為
-0.986
,而917
被規範化為
0.917
。達到了將屬性值縮到小的特定區間
[-1,1]
的目標。
把數變為(0,1)之間的小數
主要是為了資料處理方便提出來的,把資料對映到0~1範圍之內處理,更加便捷快速,應該歸到數字訊號處理範疇之內。
一般方法是
最小-最大
規範的方法:
(x-min(x))/(max(x)-min(x)),
資料的標準化是將資料按比例縮放,使之落入乙個小的特定區間,
標準化後的資料可正可負,但是一般絕對值不會太大。一般是
z-score規範化方法:
(x-mean(x))/std(x)
4 正則化(regularization)
在求解最優化問題中,調節擬合程度的,引數一般稱為正則項,越大表明欠擬合,越小表明過擬合,推薦中主要用在矩陣分
李航博士在《統計學習方法》中提到,統計學習的三要素是模型、策略和演算法,在機器學習領域,這個「模型」就是我們要求解的概率分布或決策函式。
假設我們現在要求乙個邏輯回歸問題,首先我們要做的是假設乙個函式,可以覆蓋所有的可能:y=w
x ,其中w為引數向量,x
為已知樣本的向量,如果用y
i 表示第i
個樣本的真實值,用f(x
i)表示樣本的**值,那麼我們的損失函式可以定義為:
l(yi,f(
xi))
=yi−
sigm
oid(
xi)
這裡可以不用關心這個函式是什麼意思,就知道代表誤差就行了。對於該模型y=w
x 的所有樣本的損失平均值成為「經驗風險」(empiricalrisk)或」經驗損失」(empirical loss)。很顯然,經驗風險最小化(empirical riskminimization,erm)就是求解最優模型的原則。為了達到這個目的,模型的設定會越來越複雜,最後造成該模型只適用於當前的樣本集(即over-fitting,過擬合)。
為了解決過擬合問題,通常有兩種辦法,第一是減少樣本的特徵(即維度),第二就是我們這裡要說的」正則化「(又稱為」懲罰「,penalty)。正則化的一般形式是在整個平均損失函式後增加乙個正則項(l2範數正則化,也有其他形式的正則化,他們的作用也不同):
a=1n(∑i
nl(y
i,f(
xi))
+∑in
λw2i
)
後面的∑i
nλw2
i就是正則化項,其中
λ
越大表明懲罰粒度越大,等於0表示不做懲罰,n表示所有樣本的數量,n表示引數的個數。
從下面的圖中,可以很明顯的看出正則化函式的作用:
0 λ=
0的情況,即沒有正則化
1 λ=
1的情況,即合適的懲罰
100 ,λ
=100
過度懲罰,出現欠擬合問題
資料規範化(歸一化) 及Z score標準化
資料規範化 歸一化 處理是資料探勘的一項基礎工作。不同評價指標往往具有不同的量綱,數值見的差別可能很大,不進行處理可能會影響到資料分析的結果。為了消除指標之間的量綱和取值範圍差異的影響,需要進行標準化處理,將資料按照比例進行縮放,使之落入乙個特定的區域,便於進行綜合分析。如將工資收入屬性值對映到 1...
歸一化 標準化 正則化
無量綱化使不同規格的資料轉換到同一規格。常用的無量綱化方法有標準化和區間縮放法。標準化的前提是特徵值服從正態分佈,標準化後,其轉換成標準正態分佈 區間縮放法利用了邊界值資訊,將特徵的取值區間縮放到某個特點的範圍,例如 0,1 等。標準化的前提是特徵值服從正態分佈,標準化後,其轉換成標準正態分佈 z ...
標準化 歸一化 正則化
x x x min x max x min 歸一化後的資料取值區間為 0,1 from sklearn.preprocessing import minmaxscaler import numpy as np data np.random.uniform 0,100,10 np.newaxis 隨機...