機器學習中假設函式泛化能力的驗證（上）

機器學習是通過現有的資料學習出一種假設函式，讓這個假設函式盡可能的接近真實的函式。

那麼我們如何驗證假設函式與真是函式之間的關係？

對於乙份驗證資料d，我們把學習得到的假設函式h(x)應用到d上，會得到乙個錯誤率。我們希望這個錯誤率與真實情況的錯誤率是接近的，這樣當h(x)在我們所看到的資料上的錯誤率很低的時候，它在真實情況下的錯誤率也會很小。

原理就是霍夫丁不等式：p[

|v−u

|≥ϵ]

≤2e−

2ϵn

hoeffding 告訴我們，v是樣本中事件a發生的比例，u是真實情況事件a發生的概率，那麼這兩個值相差很大的情況發生的概率是小於乙個值的，而且這個值與樣本數量有關係。

那麼對於乙個假設函式h(x)，當驗證集也就是樣本的規模很大的情況下。它的錯誤率接近真實情況。

然而我們要從多個h(x)中選擇乙個最好也就是錯誤率最小的作為g(x),那麼我們怎麼保證在多個h(x)中每乙個的誤差率ei

n 與真實誤差的誤差率eo

ut相差很近呢。因為有可能在ht

(x) 的ei

n 很小但是eo

ut就很大，所以我們希望對於所有的h(x),ei

n ,eo

ut差距都不大。那麼對於有m個h(x),

bad d 就是說，ei

n ,eo

這樣我們就可以通過機器學習的演算法在有限的h(x)中選擇乙個恰當的h(x),它的ei

n 最小。

那麼對於無窮的h（x）怎麼辦下次再講。

我們注意到對於兩個h(x)=sign(x), h(x) = sign(-x) 這兩個的bad d 是一樣的因為只是翻轉一下，正的變負，負的變正。

機器學習中對假設的評價

在機器學習中，按照ng的說法，常見的做法是先使用乙個簡單的模型來進行計算，然後找到其中容易出現的問題和樣本的一些特徵，解決之後再使用較為複雜的模型，這樣會比較節省時間，下面介紹一些常見對假設進行評價的方法。首先在機器學習中常見的對樣本的分類方式是60 的訓練集 training set 20 的交叉...

score函式機器學習機器學習中的歸一化方法

在這裡主要討論兩種歸一化方法 1 線性函式歸一化 min max scaling 線性函式將原始資料線性化的方法轉換到 0 1 的範圍，歸一化公式如下該方法實現對原始資料的等比例縮放，其中xnorm為歸一化後的資料，x為原始資料，xmax xmin分別為原始資料集的最大值和最小值。2 0均值標準化...

機器學習中的損失函式與正則化

正則化是結構風險最小化的實現策略，形式是在經驗風險最小化的後面加上正則項。正則項一般是模型複雜度的單調遞增函式，模型越複雜，正則項的值越大損失函式一般有一下幾種 1.0 1損失函式感知機但一般情況下絕對相等比較困難，因此一般設定乙個閾值，滿足一定條件時即認為相等。2.絕對值損失函式 3.對數損...

機器學習中假設函式泛化能力的驗證（上）

機器學習中對假設的評價

score函式 機器學習 機器學習中的歸一化方法

機器學習中的損失函式與正則化

相關推薦

score函式機器學習機器學習中的歸一化方法