機器學習日誌（2）

第二章模型評估與選擇

1、「錯誤率」：分類錯誤的樣本佔樣本總數的比例；「精度」：1-錯誤率；

2、「誤差」：學習器的實際**輸出與樣本的真實輸出之間的差異；

3、「經驗誤差」：學習器在訓練集上的誤差；「泛化誤差」：模型在新樣本上的誤差；

4、「過擬合」、「欠擬合」；（過擬合是不可避免的）

用「測試集」來測試學習器的「泛化誤差，以此作為評估模型的方法。

「留出法」：將資料集劃分為兩個互斥的集合，乙個用來訓練，乙個用來測試。（需要注意採用「分層取樣」以及多次使用留出法求平均值）

「交叉驗證法」：將資料集劃分為k個大小相似的互斥子集，每個子集都通過分層取樣取得，然後每次用k-1個子集作為訓練集，餘下的那個子集作為測試集，最後求平均值。

「自助法」：每次隨機衝資料集中挑出乙個樣本，將其拷貝後再放回去，過程重複m次就會得到包含m個樣本的資料集。仍有三分之一左右的沒有被取樣採到的樣本可以作為測試集。

演算法的選擇以及演算法引數的配置。

「效能度量」：衡量模型泛化能力的評價標準。

回歸任務最常用的效能度量是「均方誤差」。

錯誤率與精度是最常用的兩種效能度量。

查準率（p）和查全率（r）。

p-r曲線（查準率為縱軸，查全率為橫軸）。

平衡點：查準率等於查全率時的取值。

f1度量。（基於查準率和查全率的調和平均的定義）

巨集查準率（macro-p）、巨集查全率（macro-r）、巨集f1（macro-f1）

微查準率、微查全率、微f1

姓名高越日期 2018 09 03 今日學習任務複習棧，陣列結構和演算法，跟著老師敲程式.今日任務完成情況對棧和陣列有更多了解今日未解決問題有些還是不太懂自我評價對棧以及陣列有了更多了解，但還是有很多不懂作業 1 請編寫乙個c函式,該函式將乙個字串逆序 include inclu...

姓名郭學傑日期 2018 09 04 今日學習任務陣列結構和演算法。今日任務完成情況今天的任務完成的很不理想，課上不能跟上老師的程序，基礎太薄弱。今日未解決的問題大部分知識沒能記住，希望老師能夠在完成程式設計之後解釋並梳理一下各條的意思便於理解。自我評價今日的學習效果很差，接受較慢。作...

姓名雲中馬日期 2018.9.4 今日學習任務陣列結構和演算法棧先進後出今日任務完成情況今天的任務完成的很不理想，課上不能跟上老師的進度，基礎太薄弱。今日未解決的問題很多知識沒能記住，希望老師能夠在完成程式設計之後解釋並梳理一下各條的意思，便於理解。自我評價今日的學習效果很差，學習...