scikit learn機器學習 第三章 複習題

2021-09-13 19:30:10 字數 1422 閱讀 8681

1.什麼是過擬合?什麼是欠擬合?怎麼樣去診斷演算法是否是過擬合或欠擬合?

過擬合:訓練誤差很小,驗證誤差較大。高方差,

欠擬合:訓練誤差和驗證誤差都很大。高偏差,

診斷演算法:繪製這個模型的學習曲線

2.模型的擬合成本是什麼意思?它和模型的準確性有什麼關係?

擬合成本:衡量模型與訓練樣本符合程度的指標

關係:成本函式值越小,模型準確性越高

3.我們有哪些指標來評價乙個模型的好壞?

回歸模型:

1)sse  誤差平方和

sse數值大小本身沒有意義,隨著樣本增加,sse必然增加,也就是說,不同的資料集的情況下,sse比較沒有意義

2)r-square決定係數

3)adjusted r-square (校正決定係數)

分類模型

1)混淆矩陣(confusion matrix)

真實情況

**結果

正例 反例

正例tp(真正例)

fn(假反例)

反例fp(假正例)

tn(真反例)

查準率(精準率):precision = tp / (tp+fp);

查全率(召回率):recall = tp / (tp+fn);

正確率(準確率):accuracy = (tp+tn) / (tp+fp+tn+fn) 

2)pr曲線

3)roc曲線和auc

4.為什麼需要交叉驗證資料集?

用來驗證引數

5.什麼是學習曲線?為什麼要畫學習曲線?

學習曲線:以jtrian(θ)和jcv(θ)作為縱座標,畫出與訓練資料集m的大小關係。

目的:直觀的觀察到模型的準確性與訓練集大小的關係

6.開啟ch03.02.ipynb,執行直觀示例**。

8.為什麼需要查準率和召回率來評估模型的好壞?查準率和召回率適合那些領域?

有些問題先驗概率太低。

scikit learn機器學習簡介

目錄 機器學習 問題設定 載入示例資料集 學習和 模型永續性 約定拓展知識鏈結 在本節中,我們介紹整個scikit learn中使用的機器學習詞彙,並給出了乙個簡單的學習示例。機器學習 問題設定 通常,學習問題會考慮一組n個資料樣本,然後嘗試 未知資料的屬性。如果每個樣本都大於乙個數字,例如是多維條...

機器學習及scikit learn

1.機器學習基本步驟 1 定義一系列函式 2 定義函式的優劣 3 選擇最優函式 2.什麼是scikit learn?1 面向python的免費機器學習庫 2 包含分類 回歸 聚類演算法,比如 svm 隨機森林 k means等 3 包含降維 模型選擇 預處理等演算法 4 支援numpy和scipy資...

機器學習 scikit learn(1)

1.通過樣本來 未知的資料 通過學習資料集的特徵 訓練集 training set 來應用到新的資料上。2.監督學習 分類 樣本屬於多於兩個類,我們想要從已經標記過的資料來 未標記資料的類 digits 回歸 如果想要的輸出包括多餘乙個連續的變數 無監督 訓練集包括一系列的向量x而沒有相對應的y 目...