機器學習中假設函式泛化能力的驗證(上)

2021-07-14 19:21:21 字數 994 閱讀 1858

機器學習是通過現有的資料學習出一種假設函式,讓這個假設函式盡可能的接近真實的函式。

那麼我們如何驗證假設函式與真是函式之間的關係?

對於乙份驗證資料d,我們把學習得到的假設函式h(x)應用到d上,會得到乙個錯誤率。我們希望這個錯誤率與真實情況的錯誤率是接近的,這樣當h(x)在我們所看到的資料上的錯誤率很低的時候,它在真實情況下的錯誤率也會很小。

原理就是霍夫丁不等式:p[

|v−u

|≥ϵ]

≤2e−

2ϵn

hoeffding 告訴我們,v是樣本中事件a發生的比例,u是真實情況事件a發生的概率,那麼這兩個值相差很大的情況發生的概率是小於乙個值的,而且這個值與樣本數量有關係。

那麼對於乙個假設函式h(x),當驗證集也就是樣本的規模很大的情況下。它的錯誤率接近真實情況。

然而我們要從多個h(x)中選擇乙個最好也就是錯誤率最小的作為g(x),那麼我們怎麼保證在多個h(x)中每乙個的誤差率ei

n 與真實誤差的誤差率eo

ut相差很近呢。因為有可能在ht

(x) 的ei

n 很小但是eo

ut就很大,所以我們希望對於所有的h(x),ei

n ,eo

ut差距都不大。那麼對於有m個h(x),

bad d 就是說,ei

n ,eo

ut

這樣我們就可以通過機器學習的演算法在有限的h(x)中選擇乙個恰當的h(x),它的ei

n 最小。

那麼對於無窮的h(x)怎麼辦下次再講。

我們注意到對於兩個h(x)=sign(x), h(x) = sign(-x) 這兩個的bad d 是一樣的因為只是翻轉一下,正的變負,負的變正。

機器學習中對假設的評價

在機器學習中,按照ng的說法,常見的做法是先使用乙個簡單的模型來進行計算,然後找到其中容易出現的問題和樣本的一些特徵,解決之後再使用較為複雜的模型,這樣會比較節省時間,下面介紹一些常見對假設進行評價的方法。首先在機器學習中常見的對樣本的分類方式是60 的訓練集 training set 20 的交叉...

score函式 機器學習 機器學習中的歸一化方法

在這裡主要討論兩種歸一化方法 1 線性函式歸一化 min max scaling 線性函式將原始資料線性化的方法轉換到 0 1 的範圍,歸一化公式如下 該方法實現對原始資料的等比例縮放,其中xnorm為歸一化後的資料,x為原始資料,xmax xmin分別為原始資料集的最大值和最小值。2 0均值標準化...

機器學習中的損失函式與正則化

正則化是結構風險最小化的實現策略,形式是在經驗風險最小化的後面加上正則項。正則項一般是模型複雜度的單調遞增函式,模型越複雜,正則項的值越大 損失函式一般有一下幾種 1.0 1損失函式 感知機 但一般情況下絕對相等比較困難,因此一般設定乙個閾值,滿足一定條件時即認為相等。2.絕對值損失函式 3.對數損...