如果你不是數學系的,就不要看這個了。
由於下面內容是用來證明機器學習的方法的正確性,你能夠用機器學習來得到你想要的結果。然而對於程式設計或者使用這種方法的人來說,你僅僅要放心大膽地用即可了。就像你知道1+1=2,你並不須要知道它為什麼等於,反正你能夠用。
下面使用到的來自上海交大楊暘老師的課件。**例如以下:
寫在前邊,這課我僅僅聽懂了一部分,後來知道這個事實上並不須要了解,就沒再細細研究。可能到後邊會突然就沒有內容了。強迫症患者慎閱。
首先我們來看幾個概念:
m:訓練資料
h:如果空間。比方我們的對映函式是線性的,那麼這個空間就包含滿足如果條件的全部線性函式(可能是這種)
e(就用它取代吧):準確率,程式設計的時候輸出的準確率就是它
第四個(這符號真...):我們使用不同的訓練資料集產生的準確率會有不同,這個就是代表我們能夠通過所選訓練集學習到正確結果的概率
pac framework:如果全部的訓練資料都是分類準確的。沒有雜訊的。
可是這在現實中基本不可能達到的
agnostic framework:訓練資料是有雜訊的。符合實際情況
圖中的c是全然分類準確的空間,h是我們的如果空間,它們不重疊的部分就是說明我們預測的不准。
d表示理想狀態中全部的資料。上圖中,下邊那個符號就是表示分類錯誤的概率(就是c和h不相交的那部分,我以為僅僅有右邊那個月牙)
s是訓練用的資料集(也就是理想完整資料集d的一部分),那麼我們計算錯誤率的方法就是,找到全部使用訓練得到的對映函式分類錯誤的結果,用錯誤的個數除以總訓練個數就是錯誤率~
上邊求和裡邊的(一普斯龍)就是乙個脈衝函式,表示。如果c和h不相等就取1。相等就取0
這就是乙個定理,全部事件並起來的概率小於等於它們分別的概率相加
這也是乙個定理公式,記住即可了,叫做hoeffding不等式
r就是你指定的乙個常數。
zi等於1和等於0的概率已經知道了,就是(fai)和1-(fai),我們訓練好的模型預計出來的值就是(fai估),可是這個公式中的(fai估)是須要求全部預計值的平均的,然和前邊那個概率就小於等於後邊這個式子咯。
m代表樣本的個數
version space:之前說的那個非常大的如果空間裡邊,和訓練資料全然匹配的那些個對映關係
我們已經知道了這麼多的概念。然後我們究竟須要證明的是什麼呢?就是下圖中的兩個式子
僅僅要證明上邊這兩個式子成立,那麼我們就能夠說我們的學習方法是正確的可行的。
1、我們訓練得到的對映關係用在理想的完整的資料上的錯誤率約等於0(也就是我們使用部分訓練資料是ok的)
2、讓錯誤率約等於0的概率約等於1(也就是說我們不管取什麼樣的訓練資料都沒有影響)
證明了這兩個內容,那麼我們就能夠說學習的方法是正確可行的。
怎麼證明約等於0呢?事實上僅僅要證明它有上界和下界就ok
至於詳細的證明步驟,嘿嘿,沒懂。
這篇文章發表之後部落格公升為4級,而且當時剛好1000分。紀念一下,哈哈~
如果有小夥伴兒有發現錯誤或者有我理解不到位的地方,希望能夠聯絡我修正哦,你的善良讓世界都變得可愛了呢~
機器學習 計算學習理論
分析學習任務的困難本質,為學習演算法提供理論保證,並根據分析結果指導演算法設計。由於 d 是 的同分布取樣,因此 h 的泛化誤差等於經驗誤差的期望。經驗風險最小化 empirical risk minimization 原則令 h 為學習演算法 的輸出假設,滿足e h minh e h 則稱 滿足經...
機器學習理論 GMM模型
李航.統計學習方法中高斯混合模型僅介紹一元高斯分布的情況,周志華.機器學習則採用多元高斯分布的寫法,但求解過程不夠突出em演算法的思想。此外,李航.統計學習方法中的一些寫法會產生誤解。因此下面過程主要根據李航.統計學習方法中的推導方法,但會有部分修正。gmm演算法主要利用em演算法來估計高斯混合模型...
機器學習 理論知識
一 混淆矩陣 confusion matrix 混淆矩陣也稱誤差矩陣,是表示精度評價的一種標準格式,用n行n列的矩陣形式來表示。具體評價指標有總體精度 製圖精度 使用者精度等,這些精度指標從不同的側面反映了影象分類的精度。在人工智慧中,混淆矩陣 confusion matrix 是視覺化工具,特別用...