學習西瓜書 公式1 1

2021-09-28 10:36:12 字數 651 閱讀 3271

解釋下為什麼使用(1.1)式作為「訓練集之外的所有樣本上的誤差」。

首先,我們是這樣定義乙個假設函式h對乙個樣本點x的**誤差的:**值h(x)與真實值f(x)一致則誤差為0,不一致則誤差為1,即i(h(x)≠f(x))

由於x是乙個隨機變數,那麼這個誤差值也是乙個隨機變數,取值為0或1,其在訓練集之外的所有樣本上的期望可以看作假設函式h在訓練集之外的所有樣本上**的錯誤率,即:

我們就把這個錯誤率作為假設函式h在訓練集之外的所有樣本上的誤差。

然後,在演算法la的假設空間中可能會存在多個假設函式與訓練集一致,最終產生哪乙個是有概率的(這一點我們在以後介紹具體演算法時就會看到),令演算法la在訓練資料集x上產生某個假設h的概率為p(h|x, la),那麼,我們接下來要做的是定義演算法la在「訓練集之外的所有樣本上的誤差」,而不只是la產生的乙個假設h的誤差。

我們已經定義了假設函式h在訓練集之外的所有樣本上的誤差,由於h是演算法la以概率p(h|x, la)產生的,那麼我們可以定義演算法la的誤差為所有可能的h的誤差的期望,即:

機器學習西瓜書筆記

概念 致力於通過計算的手段,利用經驗來改善系統自身的效能。其中,經驗以資料的形式存在。基本術語 資料集 記錄的集合。示例 樣本 每條記錄,關於乙個事件或物件的描述,反應事件或物件在某方面的表現或性質的事項。屬性 特徵 一條記錄 乙個樣本由多個屬性 特徵組成。屬性值 屬性或特徵的值。示例對應於乙個座標...

西瓜書 第11章 特徵選擇與稀疏學習

特徵選擇是乙個重要的資料預處理過程,去除不相關的屬性,可以減輕維數災難,並且降低學習任務的難度。特徵選擇過程必須確保不丟失重要特徵。需要去除的特徵如無關特徵和冗餘特徵 冗餘特徵有時能簡化問題,具體問題具體分析 1 子集搜尋 前向搜尋 假定特徵子集最優,再把與剩餘的各個特徵子集組合出評估,如果最優,則...

《西瓜書》筆記11 特徵選擇方法(一)

從給定的特徵集合中,選擇出相關特徵子集的過程,稱為特徵選擇。為什麼進行特徵選擇?特徵選擇不能丟失重要特徵,否則導致欠擬合。給定資料集,若學習任務不同,則相關特徵不同。因此無關特徵,指的是與當前學習任務無關。冗餘特徵 其包含的資訊可從其他特徵推演而來。如立方體已有特徵長,寬,則底面積是冗餘特徵。一般的...