1.什麼是過擬合?什麼是欠擬合?怎麼樣去診斷演算法是否是過擬合或欠擬合?
過擬合:訓練誤差很小,驗證誤差較大。高方差,
欠擬合:訓練誤差和驗證誤差都很大。高偏差,
診斷演算法:繪製這個模型的學習曲線
2.模型的擬合成本是什麼意思?它和模型的準確性有什麼關係?
擬合成本:衡量模型與訓練樣本符合程度的指標
關係:成本函式值越小,模型準確性越高
3.我們有哪些指標來評價乙個模型的好壞?
回歸模型:
1)sse 誤差平方和
sse數值大小本身沒有意義,隨著樣本增加,sse必然增加,也就是說,不同的資料集的情況下,sse比較沒有意義
2)r-square決定係數
3)adjusted r-square (校正決定係數)
分類模型
1)混淆矩陣(confusion matrix)
真實情況
**結果
正例 反例
正例tp(真正例)
fn(假反例)
反例fp(假正例)
tn(真反例)
查準率(精準率):precision = tp / (tp+fp);
查全率(召回率):recall = tp / (tp+fn);
正確率(準確率):accuracy = (tp+tn) / (tp+fp+tn+fn)
2)pr曲線
3)roc曲線和auc
4.為什麼需要交叉驗證資料集?
用來驗證引數
5.什麼是學習曲線?為什麼要畫學習曲線?
學習曲線:以jtrian(θ)和jcv(θ)作為縱座標,畫出與訓練資料集m的大小關係。
目的:直觀的觀察到模型的準確性與訓練集大小的關係
6.開啟ch03.02.ipynb,執行直觀示例**。
8.為什麼需要查準率和召回率來評估模型的好壞?查準率和召回率適合那些領域?
有些問題先驗概率太低。
scikit learn機器學習簡介
目錄 機器學習 問題設定 載入示例資料集 學習和 模型永續性 約定拓展知識鏈結 在本節中,我們介紹整個scikit learn中使用的機器學習詞彙,並給出了乙個簡單的學習示例。機器學習 問題設定 通常,學習問題會考慮一組n個資料樣本,然後嘗試 未知資料的屬性。如果每個樣本都大於乙個數字,例如是多維條...
機器學習及scikit learn
1.機器學習基本步驟 1 定義一系列函式 2 定義函式的優劣 3 選擇最優函式 2.什麼是scikit learn?1 面向python的免費機器學習庫 2 包含分類 回歸 聚類演算法,比如 svm 隨機森林 k means等 3 包含降維 模型選擇 預處理等演算法 4 支援numpy和scipy資...
機器學習 scikit learn(1)
1.通過樣本來 未知的資料 通過學習資料集的特徵 訓練集 training set 來應用到新的資料上。2.監督學習 分類 樣本屬於多於兩個類,我們想要從已經標記過的資料來 未標記資料的類 digits 回歸 如果想要的輸出包括多餘乙個連續的變數 無監督 訓練集包括一系列的向量x而沒有相對應的y 目...