第二章 模型評估與選擇
1、「錯誤率」:分類錯誤的樣本佔樣本總數的比例;「精度」:1-錯誤率;
2、「誤差」:學習器的實際**輸出與樣本的真實輸出之間的差異;
3、「經驗誤差」:學習器在訓練集上的誤差;「泛化誤差」:模型在新樣本上的誤差;
4、「過擬合」、「欠擬合」;(過擬合是不可避免的)
用「測試集」來測試學習器的「泛化誤差,以此作為評估模型的方法。
「留出法」:將資料集劃分為兩個互斥的集合,乙個用來訓練,乙個用來測試。(需要注意採用「分層取樣」以及多次使用留出法求平均值)
「交叉驗證法」:將資料集劃分為k個大小相似的互斥子集,每個子集都通過分層取樣取得,然後每次用k-1個子集作為訓練集,餘下的那個子集作為測試集,最後求平均值。
「自助法」:每次隨機衝資料集中挑出乙個樣本,將其拷貝後再放回去,過程重複m次就會得到包含m個樣本的資料集。仍有三分之一左右的沒有被取樣採到的樣本可以作為測試集。
演算法的選擇以及演算法引數的配置。
「效能度量」:衡量模型泛化能力的評價標準。
回歸任務最常用的效能度量是「均方誤差」。
錯誤率與精度是最常用的兩種效能度量。
查準率(p)和查全率(r)。
p-r曲線(查準率為縱軸,查全率為橫軸)。
平衡點:查準率等於查全率時的取值。
f1度量。(基於查準率和查全率的調和平均的定義)
巨集查準率(macro-p)、巨集查全率(macro-r)、巨集f1(macro-f1)
微查準率、微查全率、微f1
學習日誌2
姓名 高越 日期 2018 09 03 今日學習任務 複習棧,陣列結構和演算法,跟著老師敲程式.今日任務完成情況 對棧和陣列有更多了解 今日未解決問題 有些 還是不太懂 自我評價 對棧以及陣列有了更多了解,但還是有很多不懂 作業 1 請編寫乙個c函式,該函式將乙個字串逆序 include inclu...
學習日誌2
姓名 郭學傑 日期 2018 09 04 今日學習任務 陣列結構和演算法。今日任務完成情況 今天的任務完成的很不理想,課上不能跟上老師的程序,基礎太薄弱。今日未解決的問題 大部分知識沒能記住,希望老師能夠在完成程式設計之後解釋並梳理一下各條 的意思便於理解。自我評價 今日的學習效果很差,接受較慢。作...
學習日誌2
姓名 雲中馬 日期 2018.9.4 今日學習任務 陣列結構和演算法 棧先進後出 今日任務完成情況 今天的任務完成的很不理想,課上不能跟上老師的進度,基礎太薄弱。今日未解決的問題 很多知識沒能記住,希望老師能夠在完成程式設計之後解釋並梳理一下各條 的意思,便於理解。自我評價 今日的學習效果很差,學習...