這個系列的部落格, 我將整理一下關於pac 學習理論的知識。目的是用相對數學的角度,對pac 理論的數學給出框架,再從通俗易懂的角度,給與相對直白的理解。
機器學習作為乙個當下十分火熱的話題,引來了無數學者的廣泛研究。甚至高中已經開設了人工智慧課啦。那麼pac 學習理論,也叫計算學習理論,解決了乙個什麼樣的問題呢?
當你訓練乙個演算法的時候,是否有時候問問自己以下幾個問題呢?
譬如,這個學習演算法最後可以收斂嗎?有多大概率收斂呢?(把設計演算法看作是買彩票的話,你有多大概率中獎呢?)
你需要多少樣本呢?為什麼需要這個數量的樣本演算法才能工作的很好呢?
下面,我們來一點點討論下這個看似有些玄妙的問題。
我們先從 集中不等式 (concentration inequality)說起。岔開話題顯得很囉嗦,不過為了內容的完整性, 我們還是一步一步的來。
關於數學證明,只要是不太長的,我會在博文中直接給出,如果你被數學證明煩到了,就跳過證明直接來看結果。
集中不等式是數學中的一類不等式,描述了乙個隨機變數是否集中在某個取值附近。其實,這個概念對於只要熟悉本科概率論的朋友就不陌生, 因為本科的概率論裡就有講到過切比雪夫不等式。不過如果你還不熟悉,就按照我下面的引導來一步步看下去。我們實際要用到的是集中不等式中的hoeffding 不等式,不過為了熱熱身,對集中不等式有點感覺, 我們先來兩個簡單的。
首先,介紹乙個最簡單的不等式,馬爾科夫不等式。
馬爾科夫不等式:對於乙個非負隨機變數
z z
,p(z≥t
)≤e[
z]t' role="presentation" style="position: relative;">p(z
≥t)≤
e[z]
tp(z
≥t)≤
e[z]
t
證明: ∫∞
0pz(
z)dz
≤∫∞t
ztpz
(z)d
z≤∫∞
0ztp
z(z)
dz=e
[z]t
∫ 0∞
pz(z
)dz≤
∫t∞z
tpz(
z)dz
≤∫0∞
ztpz
(z)d
z=e[
z]
t馬爾科夫不等式告訴我們,對於乙個非負的隨機變數
z z
,z' role="presentation" style="position: relative;">z
z大於乙個值的概率可以用這個值和這個隨機變數的均值來度量。
現在回頭想想,為什麼我們要先從集中不等式說起呢?
想想,如果
z z
是分類器分類的正確率,如果我們能得到這樣乙個集中不等式: p(
z≥ϵ)
≤c' role="presentation">p(z
≥ϵ)≤
cp(z
≥ϵ)≤
c其中c c
是乙個和z,
ϵ' role="presentation" style="position: relative;">z,ϵ
z,ϵ有關的數,這樣我們似乎就得到了一些關於分類器的正確率的資訊。不過,這個過程比較曲折,我們一點點來。下面再來看乙個不等式熱熱身。
切比雪夫不等式:p(|
z−e[
z]|≥
t)≤v
ar(z
)t2 p(|
z−e[
z]|≥
t)≤v
ar(z
)t
2
我們來證明一下這個不等式:(第乙個小於等於由於兩個數a≥
b a≥
b那麼a
2≥b2
a 2≥
b2
,第二個小於等於由馬爾科夫不等式得到) p(
z≥t)
≤p(z
2≥t2
)≤e[
z2]t
2 p(z
≥t)≤
p(z2
≥t2)
≤e[z
2]t2
把z z
帶成|z−e[
z]|' role="presentation" style="position: relative;">|z−
e[z]
||z−
e[z]
|,化簡得到切比雪夫不等式。
這兩個不等式屬於集中不等式中比較簡單的,下面我們來看個複雜一點的不等式,
學習理論 PAC理論
1 基本概念 2 pac理論 3 vc維 4 極大似然,最大後驗概率,貝葉斯估計 5 模型評估與評價指標 6 模型診斷調參 概率近似正確 pac 理論是從概率的角度來衡量模型的正確率,給出了pac可辨識,樣本複雜度界,誤差上界。偏差 方差 偏差和方差是機器學習中很重要的兩個概念,在分析模型時對應於欠...
關於 PAC 學習理論的一點思考
第一章中給出了軸平行矩形這一概念類,並且推導出了樣本複雜度,從而說明了是 pac 可學習的。但後面 vc維章節可以分析一下這一概念類的vc 維,在泛化界章節,可以給出基於vc維的泛化界,並且與這裡的泛化界進行對比。在泛化界章節,最好再強調一下泛化誤差界 和 pac 可學習的關係。有了泛化界,並沒有完...
loadrunner學習理論之一
1 負載測試與壓力測試的區別?答 負載測試是在系統承受正常範圍下進行的測試,壓力測試有可能在非正常範圍下進行測試,相同點 負載測試與壓力測試都是逐步加壓的 2 loadrunner的三大元件以及中英文對照?控制台 controller 建立場景,執行場景,監控場景,收集測試資料 壓力結果分析器 an...