偏差方差權衡
損失函式和收斂情況
誤差分析和銷蝕分析對順序敏感,所以需要經過多次試驗。
訓練集、交叉驗證集和測試集
訓練集是用來學習的樣本集,通過匹配一些引數來建立乙個分類器。
驗證集是用來調整分類器的引數的樣本集,比如在神經網路中選擇隱藏單元數。驗證集還用來確定網路結構或者控制模型複雜程度的引數。
測試集純粹是為了測試已經訓練好的模型的分類能力的樣本集。
劃分方法
資料集:trainning set, cross validation set, test set.
資料集:training set和test set
對第二種分法來說,取得min(err(test_set))的model作為最佳model,但是我們並不能評價選出來的這個model的效能,如果就將err(test_set)的值當作這個model的評價的話,這是不公正的,因為這個model本來就是最滿足test_set的model
相反,第一種方法取得min(err(cv_set))的model作為最佳model,對其進行評價的時候,使用剩下的test_set對其進行評價 而不是使用err(cv_set))的值
機器學習入門 Coursera
1.解決方法 無論你是mac還是windows還是linux系統,系統中都會有乙個hosts檔案。這個檔案在各系統中的位址如下。1.mac系統 private etc hosts 2.linux系統 etc hosts 3.windows系統 c windows system32 drivers e...
機器學習Coursera學習總結
coursera上andrew ng的機器學習實在是太火了,最近有時間花費了20來天的時間 每天3小時左右 終於學習完了全部的課程,總結如下 1 適合入門,講的比較基礎,andrew講的很棒 2 裡面的習題相對比較容易,不過要認真揣摩每個英語單詞,不然容易犯錯 3 我是用matlab提交的程式設計作...
Coursera 機器學習筆記(六)
主要為第八周內容 聚類 clustering 降維 聚類是非監督學習中的重要的一類演算法。相比之前監督學習中的有標籤資料,非監督學習中的是無標籤資料。非監督學習的任務是對這些無標籤資料根據特徵找到內在結構。聚類就是通過演算法把資料分成不同的簇 點集 k均值演算法是其中一種重要的聚類演算法。k均值演算...