資料集的形式主要有三種:
訓練集測試集:測試資料集不可以用來調參
驗證集
k折交叉驗證:把原始資料分成k組,每次訓練時,使用k-1個子資料集訓練,使用乙個作為驗證,最後通過k次求取訓練誤差和驗證誤差的平均。
過擬合(overfitting)
:模型的訓練誤差遠小於它在測試資料集上的誤差
欠擬合(underfitting)
:模型無法得到較低的訓練誤差
導致過擬合、欠擬合的主要因素:
如何解決過擬合與欠擬合問題: ℓ(w
1,w2
,b)+
λ2n∣
w∣2,
\ell(w_1, w_2, b) + \frac |\boldsymbol|^2,
ℓ(w1,
w2,
b)+2
nλ∣
w∣2,
l
2l_2
l2範數懲罰項指的是模型權重引數每個元素的平方和與乙個正的常數的乘積。
其中超引數λ
>
0\lambda > 0
λ>
0。當權重引數均為0時,懲罰項最小。當λ
\lambda
λ較大時,懲罰項在損失函式中的比重較大,這通常會使學到的權重引數的元素較接近0。當λ
\lambda
λ設為0時,懲罰項完全不起作用。上式中l
2l_2
l2範數平方∣w∣
2|\boldsymbol|^2
∣w∣2
展開後得到w12
+w22
w_1^2 + w_2^2
w12+w
22。
有了l
2l_2
l2範數懲罰項後,在小批量隨機梯度下降中,我們將線性回歸一節中權重w
1w_1
w1和w
2w_2
w2的迭代方式更改為
w 1←
(1−η
λ∣b∣
)w1−
η∣b∣
∑i∈b
x1(i
)(x1
(i)w
1+x2
(i)w
2+b−
y(i)
),w2
←(1−
ηλ∣b
∣)w2
−η∣b
∣∑i∈
bx2(
i)(x
1(i)
w1+x
2(i)
w2+b
−y(i
))
.\begin w_1 &\leftarrow \left(1- \frac|} \right)w_1 - \frac|} \sum_}x_1^ \left(x_1^ w_1 + x_2^ w_2 + b - y^\right),\\ w_2 &\leftarrow \left(1- \frac|} \right)w_2 - \frac|} \sum_}x_2^ \left(x_1^ w_1 + x_2^ w_2 + b - y^\right). \end
w1w2
←(1
−∣b∣
ηλ)
w1−
∣b∣η
i∈b
∑x1
(i)
(x1(
i)w
1+x
2(i)
w2
+b−y
(i))
,←(1
−∣b∣
ηλ)
w2−
∣b∣η
i∈b
∑x2
(i)
(x1(
i)w
1+x
2(i)
w2
+b−y
(i))
.可見,l
2l_2
l2範數正則化令權重w
1w_1
w1和w
2w_2
w2先自乘小於1的數,再減去不含懲罰項的梯度。因此,l
2l_2
l2範數正則化又叫權重
衰減。example
: 高維線性回歸實驗
丟棄法:解決過擬合的一種方法,測試模型中一般不使用
深度模型有關數值穩定性的典型問題:消失(vanishing
)和**(explosion
)
當層數較多時,梯度的計算也容易出現消失和**,消失和**主要通過資料來衡量,當資料特別小,即出現梯度下降,當資料特別大,即出現梯度**。
《動手學深度學習》 深度學習基礎複習
交叉熵只關心對正確類別的 概率,因為只要其值足夠大,就可以確保分類結果正確,而平方損失則過於嚴格,例如y i 1 y i 2 0比y i 1 0,y i 2 0.4的損失要小很多,雖然兩者都有同樣正確的分類 結果。正則化通過為模型損失函式新增懲罰項使學出的模型引數值較小,是應對過擬合的常用手段。權重...
動手學深度學習
線性回歸的基本要素 模型 為了簡單起見,這裡我們假設 只取決於房屋狀況的兩個因素,即面積 平方公尺 和房齡 年 接下來我們希望探索 與這兩個因素的具體關係。線性回歸假設輸出與各個輸入之間是線性關係 price warea area wage age b price warea area wage a...
深度學習 動手學深度學習筆記 12
g是乙個生成的網路,它接收乙個隨機的雜訊z,通過這個雜訊生成,記做g z d是乙個判別網路,判別一張是不是 真實的 它的輸入引數是x,x代表一張,輸出d x 代表x為真實的概率,如果為1,就代表100 是真實的,而輸出為0,就代表不可能是真實的。在訓練過程中,生成網路g的目標就是盡量生成真實的去欺騙...