訓練誤差,顧名思義,就是在訓練集上表現出的誤差,而後者是通過訓練得到的模型在任意乙個測試集上表現出的誤差的期望,但通常直接通過測試集上的誤差即(測試誤差)來近似。
假設學習到的模型是 y=f
^(x)
y = \hat(x)
y=f^(
x),則訓練誤差是模型關於訓練資料集的平均損失:
r em
p(f^
)=1n
∑i=1
nl(y
i,f^
(xi)
),n為
訓練樣本
容量
r_(\hat) = \frac\sum_^nl(y_i, \hat(x_i)) , n為訓練樣本容量
remp(
f^)
=n1
i=1∑
nl(
yi,
f^(
xi)
),n為
訓練樣本
容量測試誤差是模型關於測試資料集的平均誤差:
e te
st=1
n′∑i
=1n′
l(yi
,f^(
xi))
,n′為
測試樣本
容量
e_ = \frac\sum_^ l(y_i, \hat(x_i)) , n'為測試樣本容量
etest
=n′1
i=1
∑n′
l(yi
,f^
(xi
)),
n′為測
試樣本容
量訓練誤差小不代表泛化誤差也小,我們評判乙個模型的好壞一般不以訓練誤差小來評判,主要以測試誤差小來評判,因為測試誤差小的方法具有更好的**能力,從而模型的泛化能力要更好。
模型訓練中通常會出現兩個問題:
其中欠擬合問題是比較好解決的,比如修改模型,或者增加訓練迭代次數,調整學習率等超引數,都可以慢慢訓練出較低訓練誤差的模型,但是過擬合問題是比較難解決的。最簡單的解決方法就是增加資料集大小,但是資料集是很昂貴的,所以獲取更多資料集不是很簡單。
那麼,正則化就是解決模型過擬合的方法。
在同樣能夠解釋已知觀測現象的假設中,我們應該挑選「最簡單」的那乙個。
正則化是結構風險最小化策略的實現,若要正則化乙個學習函式f(x
;θ
)f(x;\theta)
f(x;θ)
的模型,則可以給代價函式新增乙個稱為正則化項的懲罰。
一般具有如下形式:minc
k\min_
minck
minf
∈f1n
∑i=1
nl(y
i,f(
xi))
+λj(
f)
\min_\frac\sum_^nl(y_i, f(x_i)) + \lambda j(f)
f∈fminn
1i=
1∑n
l(yi
,f(
xi)
)+λj
(f),其中第 1 項為經驗風險,第 2 項是正則化項,λ≥0
\lambda \geq 0
λ≥0為調整兩者之間關係的係數。
正則化的作用就是選擇經驗風險與模型複雜度同時較小的模型。
正則化項可以取不同的形式,比如在回歸問題中,損失函式就是平方損失。
正則化項為引數向量的 l
1l_1
l1 範數:
l (w
)=1n
∑i=1
n(f(
xi;w
)−yi
)2+λ
∥w∥1
l(w) = \frac\sum_^n(f(x_i; w) - y_i)^2 + \lambda \parallel w \parallel _1
l(w)=n
1i=
1∑n
(f(x
i;w
)−yi
)2+
λ∥w∥
1正則化項為引數向量的 l
2l_2
l2 範數:
l (w
)=1n
∑i=1
n(f(
xi;w
)−yi
)2+λ
2∥w∥
2l(w) = \frac\sum_^n(f(x_i; w) - y_i)^2 + \frac ^2
l(w)=n
1i=
1∑n
(f(x
i;w
)−yi
)2+
2λ∥
w∥2
深度學習 深度學習基礎知識 Adagrad
adagrad是一種基於梯度的優化演算法 它將學習速率與引數相適應,對不同的變數提供不同的學習率 它增加了罕見但資訊豐富的特徵的影響 因此,它非常適合處理稀疏資料。在基本的梯度下降法優化中,有個乙個常見問題是,要優化的變數對於目標函式的依賴是各不相同的。對於某些變數,已經優化到了極小值附近,但是有的...
深度學習基礎知識之啟用函式
在深度視覺的三大基本任務中,我們構建乙個卷積神經網路,啟用函式是必不可少的,例如sigmoid,relu等,下面我們來介紹下啟用函式。如圖所示 不使用啟用函式的話,神經網路的每層都只是做線性變換,線性函式無論疊加多少層,都是線性的,只是斜率和截距不同,疊加網路對解決實際問題沒有多大幫助 因為需要神經...
深度學習基礎知識整理
卷積神經網路相關知識 池化層 作用是在語義上把相似的特徵合併起來。卷積神經網路的應用 檢測 分割 物體識別以及影象的各個領域。這些應用都是使用了大量的有標籤的資料。比如交通訊號識別,生物資訊分割,面部探測,文字 行人以及自然圖形中的人的身體部分的探測。今年,卷積神經網路的乙個重大成功應用是人臉識別。...