特徵歸一化常見的有兩種,一種是線性函式歸一化,一種是零均值歸一化。
線性函式歸一化(min-max scaling)
對原始資料進行線性變換,將結果對映到【0,1】的範圍,歸一化公式如下:
x no
rm=x
−xmi
nxma
x−xm
in
,x_ = \frac}-x_} ,
xnorm
=xma
x−x
min
x−xm
in
,其中 x 為原始資料, xma
xx_
xmax
、 xmi
nx_
xmin
分別為資料最大值和最小值。
零均值歸一化(zero-score normalization)
它會將原始資料對映到均值為0、標準差為1的分布上。
歸一化公式定義為:
z =x
−μ
σz = \frac
z=σx−μ
歸一化的目的: 更快的通過梯度下降找到最優解。 btw, 特徵歸一化對於決策樹模型並不適用,詳細的還不了解。
資料不足面的問題主要表現在擬合方面,就是說我們在訓練集上面的效果可能還不錯,但是在測試集上的泛化能力很差。解決方法可以分為兩類。
基於模型的方法:簡化模型(非線性變成線性),新增約束項以減小假設空間(l1/l2正則項),dropout超引數等;
資料擴充:隨機旋轉,平移,裁剪,縮放,新增顏色擾動,比如椒鹽雜訊,高斯雜訊。 mse
loss
=∑i=
1n(y
i−yi
^)2n
mse_ = \sqrt^(y_i - \hat)^2}}
mselos
s=n
∑i=1
n(y
i−y
i^
)2
這是乙個用來評測回歸模型的常用指標。數值越大,說明效果越差,數值越小,說明效果越好。
乙個問題就是離群點對該評價指標的影響很大,
百面機器學習
目錄 第一章 特徵工程 1.1特徵歸一化 1.2高維組合特徵的處理 特徵工程 對原始資料進行一系列工程處理,將其提煉為特徵。作為輸入給演算法和模型使用。本質上,特徵工程是乙個表示和展現資料的過程。特徵工程旨在去除原始資料中的雜誌。結構化資料 類似於資料庫中的乙個表,每乙個行列都有清晰的定義,包含數值...
《百面機器學習》模型評估
沒有測量,就沒有科學。門捷列夫 在模型評估過程中,分類問題 排序問題 回歸問題往往需要使用不同的指標進行評估。在諸多的評估指標中,大部分指標只能片面地反映模型的一部分效能。如果不能合理地運用評估指標,不僅不能發現模型本身的問題,而且會得出錯誤的結論。準確率 accuracy 精確率 precisio...
百面機器學習筆記 4
roc曲線 question 如何計算auc?answer 首先,auc是指roc曲線下的面積大小,該值能夠量化地反映基於roc曲線衡量出的模型效能。計算auc值只需要沿著roc橫軸做積分就可以了。由於roc曲線一般都處於y x這條直線的上方 如果不是的話,只要把模型 的 概率反轉成1 p就可以得到...