task03:過擬合、欠擬合及其解決方案;梯度消失、梯度**;迴圈神經網路高階
task03筆記見:
過擬合、欠擬合及其解決方案
1、關於驗證資料集的描述錯誤的是:
a、測試資料集可以用來調整模型引數
b、驗證資料集可以用來調整模型引數
c、在資料不夠多的時候,k折交叉驗證是一種常用的驗證方法
d、k折交叉驗證將資料分為k份,每次選擇乙份用於驗證模型,其餘的用於訓練模型
答:選擇a
測試資料集不可以用來調整模型引數,如果使用測試資料集調整模型引數,可能在測試資料集上發生一定程度的過擬合,此時將不能用測試誤差來近似泛化誤差。
2、關於過擬合、欠擬合概念的描述錯誤的是:
a、過擬合是指訓練誤差很低,泛化誤差相對於訓練誤差要高很多
b、過擬合和欠擬合可以同時發生
c、欠擬合是指訓練誤差和泛化誤差都無法到達乙個較低的水平
d、過擬合和欠擬合都是在訓練中容易遇到的經典問題
答:選擇b
過擬合是指訓練誤差達到乙個較低的水平,而泛化誤差依然較大。
欠擬合是指訓練誤差和泛化誤差都不能達到乙個較低的水平。
發生欠擬合的時候在訓練集上訓練誤差不能達到乙個比較低的水平,所以過擬合和欠擬合不可能同時發生。
3、關於模型複雜度和資料集大小造成欠擬合和過擬合的描述錯誤的是:
a、模型複雜度低容易導致欠擬合
b、訓練資料集小容易導致過擬合
c、解決欠擬合可以考慮增加模型的複雜度
d、緩解過擬合只能增加訓練資料集的大小
答:選擇d
過擬合還可以使用權重衰減和丟棄法來緩解,即使在乙個比較小的資料集上使用了權重衰減和丟棄法之後也能夠達到乙個比較好的效果。
4、關於權重衰減和丟棄法的描述錯誤的是:
a、l2範數正則化在損失函式的基礎上新增了l2範數懲罰項
b、l2範數懲罰項通過懲罰絕對值較大的引數的方法來應對欠擬合的
c、丟棄法通過隨機丟棄層間元素,使模型不依賴於某乙個元素來應對過擬合的
d、l2範數正則化是權重衰減的一種方式
答:選擇b
l2範數正則化也就是權重衰減是用來應對過擬合的。
有時可以同時結合l1和l2範數,加入到損失函式中,以應對過擬合問題
梯度消失、梯度**
1、關於導致梯度消失和梯度**的描述錯誤的是:
a、梯度消失會導致模型訓練困難,對引數的優化步長過小,收效甚微,模型收斂十分緩慢
b、梯度**會導致模型訓練困難,對引數的優化步長過大,難以收斂
c、啟用函式使用sigmoid或者tanh可以緩解梯度消失
d、在訓練模型時,我們應該採取適當的措施防止梯度消失和梯度**的現象
答:選擇c
在深層網路中盡量避免選擇sigmoid和tanh啟用函式,原因是這兩個啟用函式會把元素轉換到[0, 1]
和[-1, 1]
之間,會加劇梯度消失的現象。relu啟用函式目前在深度神經網路中用的最多。
a、協變數偏移
b、標籤偏移
c、概念偏移
d、沒有問題
答:選擇a
可以理解為在夏季的物品推薦系統與冬季相比,時間或者說季節發生了變化,導致了夏季推薦聖誕禮物的不合理的現象,這個現象是由於協變數時間發生了變化造成的。
3、下列關於模型訓練實戰步驟排序正確的是:
模型驗證和模型調整(調參)
獲取資料集
模型設計
模型**以及提交
資料預處理
a、12345
b、23145
c、25143
d、25314
答:選擇d
正確的順序應該是:
獲取資料集
資料預處理
模型設計
模型驗證和模型調整(調參)
模型**及提交
所以最終選擇25314。
4、關於協變數偏移、標籤偏移、概念偏移的描述中錯誤的是:
a、協變數偏移和標籤偏移可能同時發生
b、標籤偏移可以簡單理解為測試時出現了訓練時沒有的標籤
c、確保訓練集和測試集中的資料取自同乙個資料集,即使訓練資料和測試資料資料量很少也可以防止協變數偏移和標籤偏移
d、概念偏移可以根據其緩慢變化的特點緩解
答:選擇c
如果資料量足夠的情況下,確保訓練資料集和測試集中的資料取自同乙個資料集,可以防止協變數偏移和標籤偏移是正確的。如果資料量很少,少到測試集中存在訓練集中未包含的標籤,就會發生標籤偏移。
迴圈神經網路高階
1、關於迴圈神經網路描述錯誤的是:
a、在同乙個批量中,處理不同語句用到的模型引數wh
和bh
是一樣的
b、迴圈神經網路處理乙個長度為t
的輸入序列,需要維護t
組模型引數
c、各個時間步的隱藏狀態ht
不能平行計算
d、可以認為第t
個時間步的隱藏狀態ht
包含截止到第t
個時間步的序列的歷史資訊
答:選擇b
a項:批量訓練的過程中,引數是以批為單位更新的,每個批次內模型的引數都是一樣的。
b項:迴圈神經網路通過不斷迴圈使用同樣一組引數來應對不同長度的序列,故網路的引數數量與輸入序列長度無關。
c項:隱狀態ht
的值依賴於h1, ..., ht−1
,故不能平行計算。
d項:正確
2、關於梯度裁剪描述錯誤的是:
a、梯度裁剪之後的梯度小於或者等於原梯度
b、梯度裁剪是應對梯度**的一種方法
c、裁剪之後的梯度l2範數小於閾值θ
d、梯度裁剪也是應對梯度消失的一種方法
答:選擇d
梯度裁剪只能應對梯度**
3、關於困惑度的描述錯誤的是:
a、困惑度用來評價語言模型的好壞
b、困惑度越低語言模型越好
c、有效模型的困惑度應該大於類別個數
答:選擇c
乙個隨機分類模型(基線模型)的困惑度等於分類問題的類別個數,有效模型的困惑度應小於類別個數。
4、關於取樣方法和隱藏狀態初始化的描述錯誤的是:
a、採用的取樣方法不同會導致隱藏狀態初始化方式發生變化
b、採用相鄰取樣僅在每個訓練週期開始的時候初始化隱藏狀態是因為相鄰的兩個批量在原始資料上是連續的
c、採用隨機取樣需要在每個小批量更新前初始化隱藏狀態是因為每個樣本包含完整的時間序列資訊
答:選擇c
隨機取樣中每個樣本只包含區域性的時間序列資訊,因為樣本不完整所以每個批量需要重新初始化隱藏狀態。
《動手學深度學習》task05課後習題
task05 卷積神經網路基礎 lenet 卷積神經網路高階 學習筆記見 卷積神經網路基礎 1 假如你用全連線層處理一張256 256 的彩色 rgb 影象,輸出包含1000個神經元,在使用偏置的情況下,引數數量是 a 65536001 b 65537000 c 196608001 d 196609...
動手學深度學習 task01
task 1 線性回歸 多層感知機 softmax函式 1 線性回歸作為基本的機器學習演算法,實現較簡單,應用廣泛。以下為用pytorch編寫的線性回歸類 import torch.nn as nn import torch from torch.autograd import variable f...
動手學深度學習Task3
過擬合 欠擬合及其解決方案 梯度消失 梯度 迴圈神經網路高階 1 過擬合和欠擬合 過擬合 模型的訓練誤差遠小於它在測試資料集上的誤差,我們稱該現象為過擬合 欠擬合 模型訓練誤差無法降低.如何應對欠擬合和過擬合?在這裡我們重點討論兩個因素 模型複雜度和訓練資料集大小。1.1.1 模型複雜度 為了解釋模...