2.1
經驗誤差與過擬合
錯誤率:分類錯誤的樣本佔樣本總數的比例
精度:1—
錯誤率
誤差:學習器的實際**輸出與樣本的真實輸出之間的差異
訓練誤差:學習器在訓練集上的誤差
泛化誤差:在新樣本上的誤差
過擬合:過度學習樣本非主要特徵導致學習器泛化能力下降
欠擬合:未完全學習樣本的特徵
過擬合難以避免,欠擬合可以避免:通過增加訓練的輪數、擴充套件決策樹分支等方法可以克服欠擬合;機器學習通常面臨
np 問題,機器學習的有效解必然是在多項式時間內的,如果徹底避免了過擬合,說明構造性的證明了
p=np
,然而事實上這件事並沒有被證明,所以只要
p!=np
,則過擬合就無法避免。
模型選擇:學習演算法
+引數配置
2.2
評估方法——通過測試對學習器的泛化誤差進行評估,進而做出選擇
測試集盡量與樣本互斥,即測試樣本未在訓練集合中出現,未被使用過
如何從資料集中產生訓練集和測試集
留出法:
2/3~4/5
作為訓練樣本,其餘作為測試樣本,既保證訓練集與資料集之間的差別不過大,又保證訓練集沒有占有絕大多數的樣本;訓練測試集的劃分,盡量保持資料分布的一致性,多種劃分方式若干次隨機劃分重複實驗評估取平均值。
交叉驗證法:將資料集進行劃分成
k個互斥且並為資料集的子集合,每次使用
k-1個子集作為乙個訓練集,餘下乙個作為測試集,進行
k次實驗,同樣,在劃分資料集時候存在不同方式,每種劃分方式下進行
k次實驗。一般,取
10次劃分方式,每次劃分成
10個子集,總共進行了
100次實驗。。。特別的,留一法,每次將每個樣本作為乙個子集,這樣有可能提高準確性,但是代價比較大
自助法/
有放回取樣法:資料集d,從
d 中m次隨機有放回取樣得到集合
d`,將
d`作為訓練集合,
d-d`
作為測試集。這樣會引起估計偏差。在資料集合足夠大的時候,採用留出法或交叉驗證法
調參與最終模型:
2.3效能度量
使用均方差
/積分形式的均方差來描述模型泛化的能力
錯誤率和精度的計算法方法
查準率、查全率與
f1,針對二分類做出詳細的描述,,相關概念:混淆矩陣,巨集查準率,微查準率,巨集查全率,微查全率,巨集
f1,微
f1roc
與auc
未完待續……
周志華西瓜書筆記 1 3 假設空間
歸納 induction 是從特殊到一般的 泛化 generalization 過程,即從具體的事實歸結出一般性規律 演繹 deduction 是從一般到特殊的 特化 specialization 過程,即從基礎原理推演出具體狀況.e.g.在數學公理系統中,基於一組公理和推理規則推導出與之相洽的定理...
1 周志華西瓜書筆記 緒論
學習周志華的機器學習隨筆 第一章 緒論 模型 泛指從資料中學得的結果 1.2基本術語 進行機器學習需要有資料,記錄的集合稱為資料集。記錄,是關於乙個事件或物件的描述,也稱為示例或樣本。樣本作為事物,有其屬性,屬性上的取值稱為屬性值,屬性張成的空間稱為屬性空間。訓練模型,需要有標記 label 的資料...
周志華西瓜書 第二天閱讀 模型評估
可以分為兩類,一類對於回歸問題,常常採用 均方誤差 mean squared error 平均絕對誤差 mean absolute error 另一類對於分類問題,常常採用 roc 全稱是 受試者工作特徵 receiver operating characteristic 曲線,而auc則是指are...