該筆記是在學習周志華老師《機器學習》這本書的過程中所做的筆記
part1經驗誤差與過擬合
精確度=1-錯誤率
泛化誤差:在新樣本上的誤差
過擬合:學習器把訓練樣本學得太好了,很可能已經把訓練樣本自身的一些特點當作了所有潛在樣本都具有的一般性質,這樣會導致泛化能力下降
產生過擬合的原因:學習能力太強了
欠擬合:對訓練樣本的一般性質尚未學好
欠擬合產生的原因:學習能力低下
part2評估方法
part3效能度量
方差-偏差的矛盾:
1、訓練不足時,學習器擬合能力不強,偏差佔主導
2、隨著訓練程度加深,學習器擬合能力逐漸增強,方差逐漸主導
3、當訓練充足後,學習器的擬合能力很強,長查佔主導
關於題目的答案:
習題2.1:資料集包含1000個樣本,其中500個正例,500個反例,將其劃分為包含70%樣本的訓練集和30%樣本的測試集用於留出法評估,試估算共有多少種劃分方式。
乙個組合問題,從500正反例中分別選出150正反例用於留出法評估,所以可能取法應該是(c150500)2種。
習題2.2:資料集包含100個樣本,其中正反例各一半,假定學習演算法所產生的模型是將新樣本**為訓練樣本數較多的類別(訓練樣本數相同時進行隨機猜測),試給出用10折交叉驗證法和留一法分別對錯誤率進行評估所得的結果。
10折交叉檢驗:由於每次訓練樣本中正反例數目一樣,所以講結果判斷為正反例的概率也是一樣的,所以錯誤率的期望是50%。
留一法:如果留下的是正例,訓練樣本中反例的數目比正例多乙個,所以留出的樣本會被判斷是反例;同理,留出的是反例,則會被判斷成正例,所以錯誤率是100%。
習題3.3:若學習器a的f1值比學習器b高,試析a的bep值是否也比b高
f1值的大小與bep值並沒有明確的關係。
兩個分類器的f1值得大小與他們的bep值大小並沒有明確的關係(沒去找)
習題2.4:試述真正例率(tpr)、假正例率(fpr)與查準率(p)、查全率(r)之間的聯絡。
查全率: 真實正例被**為正例的比例
真正例率: 真實正例被**為正例的比例
顯然查全率與真正例率是相等的。
查準率:**為正例的例項中真實正例的比例
假正例率: 真實反例被**為正例的比例
兩者並沒有直接的數值關係。
周志華西瓜書筆記 第二章
2.1 經驗誤差與過擬合 錯誤率 分類錯誤的樣本佔樣本總數的比例 精度 1 錯誤率 誤差 學習器的實際 輸出與樣本的真實輸出之間的差異 訓練誤差 學習器在訓練集上的誤差 泛化誤差 在新樣本上的誤差 過擬合 過度學習樣本非主要特徵導致學習器泛化能力下降 欠擬合 未完全學習樣本的特徵 過擬合難以避免,欠...
機器學習英語 西瓜書第二章 第五天
error rate 錯誤率 1 accuracy 準確率 overfitting 過擬合 underfitting 欠擬合 hand out 留出法 資料集的處理方法。stratified sampling 分層取樣 cross validation 交叉驗證 parameter tuning 調...
西瓜書 第二章模型評估與選擇
錯誤率 a 分類錯誤的樣本個數 m 樣本個數 精度 1 錯誤率 誤差 實際 輸出與樣本的真實輸出之間的差異 訓練誤差 經驗誤差 學習器在訓練集上的誤差 泛化誤差 學習器在新樣本上的誤差 注 我們希望得到泛化誤差小的學習器 過擬合 學習器的學習能力過於強大,把樣本中所包含的不太一般的特性學到了,導致的...