scikit learn機器學習第三章複習題

1.什麼是過擬合？什麼是欠擬合？怎麼樣去診斷演算法是否是過擬合或欠擬合？

過擬合：訓練誤差很小，驗證誤差較大。高方差，

欠擬合：訓練誤差和驗證誤差都很大。高偏差，

診斷演算法：繪製這個模型的學習曲線

2.模型的擬合成本是什麼意思？它和模型的準確性有什麼關係？

擬合成本：衡量模型與訓練樣本符合程度的指標

關係：成本函式值越小，模型準確性越高

3.我們有哪些指標來評價乙個模型的好壞？

回歸模型：

1）sse 誤差平方和

sse數值大小本身沒有意義，隨著樣本增加，sse必然增加，也就是說，不同的資料集的情況下，sse比較沒有意義

2）r-square決定係數

3）adjusted r-square (校正決定係數）

分類模型

1）混淆矩陣（confusion matrix）

真實情況

**結果

正例　反例

正例tp（真正例）

fn（假反例）

反例fp（假正例）

tn（真反例）

查準率（精準率）：precision = tp / (tp+fp)；

查全率（召回率）：recall = tp / (tp+fn)；

正確率（準確率）：accuracy = (tp+tn) / (tp+fp+tn+fn)

2）pr曲線

3）roc曲線和auc

4.為什麼需要交叉驗證資料集？

用來驗證引數

5.什麼是學習曲線？為什麼要畫學習曲線？

學習曲線：以jtrian(θ）和jcv(θ）作為縱座標，畫出與訓練資料集m的大小關係。

目的：直觀的觀察到模型的準確性與訓練集大小的關係

6.開啟ch03.02.ipynb,執行直觀示例**。

8.為什麼需要查準率和召回率來評估模型的好壞？查準率和召回率適合那些領域？

有些問題先驗概率太低。

目錄機器學習問題設定載入示例資料集學習和模型永續性約定拓展知識鏈結在本節中，我們介紹整個scikit learn中使用的機器學習詞彙，並給出了乙個簡單的學習示例。機器學習問題設定通常，學習問題會考慮一組n個資料樣本，然後嘗試未知資料的屬性。如果每個樣本都大於乙個數字，例如是多維條...

1.機器學習基本步驟 1 定義一系列函式 2 定義函式的優劣 3 選擇最優函式 2.什麼是scikit learn？1 面向python的免費機器學習庫 2 包含分類回歸聚類演算法，比如 svm 隨機森林 k means等 3 包含降維模型選擇預處理等演算法 4 支援numpy和scipy資...

1.通過樣本來未知的資料通過學習資料集的特徵訓練集 training set 來應用到新的資料上。2.監督學習分類樣本屬於多於兩個類，我們想要從已經標記過的資料來未標記資料的類 digits 回歸如果想要的輸出包括多餘乙個連續的變數無監督訓練集包括一系列的向量x而沒有相對應的y 目...

scikit learn機器學習 第三章 複習題