談一談PAC學習理論

2021-08-16 22:06:41 字數 2329 閱讀 9241

這個系列的部落格, 我將整理一下關於pac 學習理論的知識。目的是用相對數學的角度,對pac 理論的數學給出框架,再從通俗易懂的角度,給與相對直白的理解。

機器學習作為乙個當下十分火熱的話題,引來了無數學者的廣泛研究。甚至高中已經開設了人工智慧課啦。那麼pac 學習理論,也叫計算學習理論,解決了乙個什麼樣的問題呢?

當你訓練乙個演算法的時候,是否有時候問問自己以下幾個問題呢?

譬如,這個學習演算法最後可以收斂嗎?有多大概率收斂呢?(把設計演算法看作是買彩票的話,你有多大概率中獎呢?)

你需要多少樣本呢?為什麼需要這個數量的樣本演算法才能工作的很好呢?

下面,我們來一點點討論下這個看似有些玄妙的問題。

我們先從 集中不等式 (concentration inequality)說起。岔開話題顯得很囉嗦,不過為了內容的完整性, 我們還是一步一步的來。

關於數學證明,只要是不太長的,我會在博文中直接給出,如果你被數學證明煩到了,就跳過證明直接來看結果。

集中不等式是數學中的一類不等式,描述了乙個隨機變數是否集中在某個取值附近。其實,這個概念對於只要熟悉本科概率論的朋友就不陌生, 因為本科的概率論裡就有講到過切比雪夫不等式。不過如果你還不熟悉,就按照我下面的引導來一步步看下去。我們實際要用到的是集中不等式中的hoeffding 不等式,不過為了熱熱身,對集中不等式有點感覺, 我們先來兩個簡單的。

首先,介紹乙個最簡單的不等式,馬爾科夫不等式。

馬爾科夫不等式:對於乙個非負隨機變數

z z

,p(z≥t

)≤e[

z]t' role="presentation" style="position: relative;">p(z

≥t)≤

e[z]

tp(z

≥t)≤

e[z]

t

證明: ∫∞

0pz(

z)dz

≤∫∞t

ztpz

(z)d

z≤∫∞

0ztp

z(z)

dz=e

[z]t

∫ 0∞

pz(z

)dz≤

∫t∞z

tpz(

z)dz

≤∫0∞

ztpz

(z)d

z=e[

z]

t馬爾科夫不等式告訴我們,對於乙個非負的隨機變數

z z

,z' role="presentation" style="position: relative;">z

z大於乙個值的概率可以用這個值和這個隨機變數的均值來度量。

現在回頭想想,為什麼我們要先從集中不等式說起呢?

想想,如果

z z

是分類器分類的正確率,如果我們能得到這樣乙個集中不等式: p(

z≥ϵ)

≤c' role="presentation">p(z

≥ϵ)≤

cp(z

≥ϵ)≤

c其中c c

是乙個和z,

ϵ' role="presentation" style="position: relative;">z,ϵ

z,ϵ有關的數,這樣我們似乎就得到了一些關於分類器的正確率的資訊。不過,這個過程比較曲折,我們一點點來。下面再來看乙個不等式熱熱身。

切比雪夫不等式:p(|

z−e[

z]|≥

t)≤v

ar(z

)t2 p(|

z−e[

z]|≥

t)≤v

ar(z

)t

2

我們來證明一下這個不等式:(第乙個小於等於由於兩個數a≥

b a≥

b那麼a

2≥b2

a 2≥

b2

,第二個小於等於由馬爾科夫不等式得到) p(

z≥t)

≤p(z

2≥t2

)≤e[

z2]t

2 p(z

≥t)≤

p(z2

≥t2)

≤e[z

2]t2

把z z

帶成|z−e[

z]|' role="presentation" style="position: relative;">|z−

e[z]

||z−

e[z]

|,化簡得到切比雪夫不等式。

這兩個不等式屬於集中不等式中比較簡單的,下面我們來看個複雜一點的不等式,

學習理論 PAC理論

1 基本概念 2 pac理論 3 vc維 4 極大似然,最大後驗概率,貝葉斯估計 5 模型評估與評價指標 6 模型診斷調參 概率近似正確 pac 理論是從概率的角度來衡量模型的正確率,給出了pac可辨識,樣本複雜度界,誤差上界。偏差 方差 偏差和方差是機器學習中很重要的兩個概念,在分析模型時對應於欠...

關於 PAC 學習理論的一點思考

第一章中給出了軸平行矩形這一概念類,並且推導出了樣本複雜度,從而說明了是 pac 可學習的。但後面 vc維章節可以分析一下這一概念類的vc 維,在泛化界章節,可以給出基於vc維的泛化界,並且與這裡的泛化界進行對比。在泛化界章節,最好再強調一下泛化誤差界 和 pac 可學習的關係。有了泛化界,並沒有完...

loadrunner學習理論之一

1 負載測試與壓力測試的區別?答 負載測試是在系統承受正常範圍下進行的測試,壓力測試有可能在非正常範圍下進行測試,相同點 負載測試與壓力測試都是逐步加壓的 2 loadrunner的三大元件以及中英文對照?控制台 controller 建立場景,執行場景,監控場景,收集測試資料 壓力結果分析器 an...