分析學習任務的困難本質,為學習演算法提供理論保證,並根據分析結果指導演算法設計。
由於 d
是 的同分布取樣,因此
h 的泛化誤差等於經驗誤差的期望。
經驗風險最小化(empirical risk minimization)原則令 h
為學習演算法
?的輸出假設,滿足ê
(h)=
minh′∈
ê (
h′)
則稱 ?
滿足經驗風險最小化原則。
增長函式
設假設
h 對訓練集
d中樣本的標記結果為:h|
d=對所有的 m∈
ℕ ,假設空間的增長函式為:π
=max⊆
||表示假設空間對
m 個樣本所能賦予標記的最大可能數,該值越大則假設空間的表示能力越強。
對分和打散
儘管假設空間的大小可能是無窮的,但是對於訓練集
d的可能標記結果數是有限的。
vc 維
假設空間
的 vc 維是能被
打散的最大樣本集的大小:vc(
)=max=d
任何 vc 維有限的假設空間都是(不可知) pac 學習的。
在一定程度上考慮了資料的分布。
考察演算法在輸⼊(訓練集)發⽣變化時,輸出是否發⽣較⼤的變化。
損失函式刻畫了學習演算法在訓練集上**標記與真實標記的差別:l(
?d(x
),y)
:×
→ℝ+
簡記為 l(
?d,z
=(x,
y)) 。
對於損失函式,若學習演算法的輸出滿足經驗損失
最小化,則稱演算法滿足經驗風險
最小化。
機器學習 計算學習理論
如果你不是數學系的,就不要看這個了。由於下面內容是用來證明機器學習的方法的正確性,你能夠用機器學習來得到你想要的結果。然而對於程式設計或者使用這種方法的人來說,你僅僅要放心大膽地用即可了。就像你知道1 1 2,你並不須要知道它為什麼等於,反正你能夠用。下面使用到的來自上海交大楊暘老師的課件。例如以下...
機器學習理論 GMM模型
李航.統計學習方法中高斯混合模型僅介紹一元高斯分布的情況,周志華.機器學習則採用多元高斯分布的寫法,但求解過程不夠突出em演算法的思想。此外,李航.統計學習方法中的一些寫法會產生誤解。因此下面過程主要根據李航.統計學習方法中的推導方法,但會有部分修正。gmm演算法主要利用em演算法來估計高斯混合模型...
機器學習 理論知識
一 混淆矩陣 confusion matrix 混淆矩陣也稱誤差矩陣,是表示精度評價的一種標準格式,用n行n列的矩陣形式來表示。具體評價指標有總體精度 製圖精度 使用者精度等,這些精度指標從不同的側面反映了影象分類的精度。在人工智慧中,混淆矩陣 confusion matrix 是視覺化工具,特別用...