機器學習(周志華) 西瓜書簡要筆記(2)

2021-10-09 02:12:48 字數 2274 閱讀 4081

1.錯誤率--分類錯誤的樣本數佔樣本總數的比例。

精度--精度=1-錯誤率

誤差--學習器的實際**輸出與樣本的真實輸出之間的差異

訓練誤差--學習器在訓練集上的誤差,也稱為「經驗誤差」

泛化誤差--在新樣本上的誤差

2.過擬合--當學習器把訓練樣本學得「太好」了的時候,很可能已經把訓練樣本自身的一些特點當作了所有潛在樣本都會具有的一般性質,這樣就會導致泛化能力下降。這種現象在機器學習中稱為「過擬合」。

欠擬合--對訓練樣本的一般性質尚未學好,是與「過擬合」相對的。

通常,我們可通過實驗測試對學習器的泛化誤差進行評估,採用測試集(盡可能與訓練集互斥)來測試學習器對新樣本的判別能力,然後以測試集上的測試誤差作為泛化誤差的近似。

我們只有乙個包含m個樣例的資料集d,既要訓練又要測試,怎麼樣才能做到呢?應該對d進行適當的處理,從中產生出訓練集s和測試集t。下面介紹幾種常見做法。

1.留出法--直接將資料集d劃分為兩個互斥的集合,其中乙個集合作為訓練集s,另乙個作為測試集t。

2.交叉驗證法--先將資料集d劃分為k個大小相似的互斥子集,每個子集都盡可能保持資料分布的一致性,即從d中通過分層取樣(保留類別的取樣方式)得到。然後每次用k-1個子集的並集作為訓練集,餘下的那個子集作為測試集,這樣就可以獲得k組訓練集/測試集,從而可進行k次訓練和測試,最終返回的是這k個測試結果的均值。

3.自助法--直接以自助取樣法為基礎。

4.調參與最終模型

效能度量反映了任務需求,在對比不同模型的能力時,使用不同的效能度量往往會導致不同的評判結果。回歸任務最常用的效能度量是」均方誤差「。

1.錯誤率與精度--既適用於二分類任務,也適用於多分類任務。

錯誤率--分類錯誤的樣本數佔樣本總數的比例

精度--分類正確的樣本數佔樣本總數的比例

2.查準率、查全率與f1

a)對於二分類問題,可將樣例根據其真實類別與學習器**類別的組合劃分為真正例、假正例、真反例、假反例四種情形,令tp、fp、tn、fn分別表示其對應的樣例數,分類結果的」混淆矩陣「表示為:

查準率和查全率是一對矛盾的度量。一般來說,查準率高時,查全率往往偏低,而查全率高時,查準率往往偏低。

b)」平衡點「(bep),它是」查準率=查全率「時的取值。

c)f1度量的一般形式能讓我們表達出對查準率/查全率的不同偏好,它定義為:

d)巨集查全率/巨集查準率/巨集f1--對n個二分類混淆矩陣上綜合考察,在各混淆矩陣上分別計算出查準率和查全率,再計算出平均值。

e)微查全率/微查準率/微f1--先將各混淆矩陣對應的元素進行平均,得到tp、fp、tn、fn的平均值,再基於這些平均值計算。

3.roc與auc

4.代價敏感錯誤率與代價曲線

統計假設檢驗為我們進行學習器效能比較提供了重要依據。基於假設檢驗結果我們可以推斷出,若在測試集上觀察到學習器a比b好,則a的泛化效能是否在統計意義上優於b,以及這個結論的把握有多大。

1.假設檢驗

」假設「是對學習器泛化錯誤率分布的某種判斷或猜想,可根據測試錯誤率估推出泛化錯誤率的分布。適用於單個學習器泛化效能的假設進行檢驗。

2.交叉驗證t檢驗--適用於對不同學習器的效能進行比較

3.mcnemar檢驗

4.friedman檢驗與nemenyi後續檢驗

5.偏差與方差

機器學習(周志華) 西瓜書簡要筆記(4)

1.決策樹是一種常見的機器學習方法,也稱為 判定樹 決策樹是基於樹結構來進行決策的。2.決策過程的最終結論對應了我們所希望的判定結果。決策過程中提出的每個判定問題都是對某個屬性的 測試 每個測試的結果或是匯出最終結論,或是匯出進一步的判定問題,其考慮範圍是在上次決策結果的限定範圍之內。3.一顆決策樹...

《機器學習(周志華)》 西瓜資料集3 0

書上的乙個常用資料集 編號,色澤,根蒂,敲聲,紋理,臍部,觸感,密度,含糖率,好瓜 1,青綠,蜷縮,濁響,清晰,凹陷,硬滑,0.697,0.46,是 2,烏黑,蜷縮,沉悶,清晰,凹陷,硬滑,0.774,0.376,是 3,烏黑,蜷縮,濁響,清晰,凹陷,硬滑,0.634,0.264,是 4,青綠,蜷縮...

周志華西瓜書筆記 1 3 假設空間

歸納 induction 是從特殊到一般的 泛化 generalization 過程,即從具體的事實歸結出一般性規律 演繹 deduction 是從一般到特殊的 特化 specialization 過程,即從基礎原理推演出具體狀況.e.g.在數學公理系統中,基於一組公理和推理規則推導出與之相洽的定理...