learning 拆分為兩個問題
一:我們如何可以讓ein(g)和eout(g)足夠接近?
二:如何讓ein(g)變的越來越小?
m hyposesis的大小
m比較小的時候:good,p[bad<=2mexp],bad 很少的選擇
m比較大的時候:好的選擇,壞事情發生的機率增加
把hypotheses 分類
怎麼分類
從乙個data 來看只有兩種線 一種是判定它為是的線,否則反之.
那從兩個data來看? 那就有四種線~ 正正,反反,正反,反正
那3個? 2的三次方條線 但是 如果三個在一條線上,那麼就有2種情況是線性hypotheses沒辦法產生的
那4個呢?2的四次方-2
那麼我們稱可以的線叫作effective number of lines
那麼我們可以把大m取代掉
這裡引入乙個叫dichotomies
和hypotheses 區別於 hypotheses 是很多的直線在r實數範圍內,範圍是無限大
而dichotomies只對n個來取值,是oox,xxo,是有幾種不同的型別, 最多是2的n次方
mh(n) –>growth function 成長函式
positive ways
n+1<2的n次方
positive intervals
1/2(n平方+n)+1<2的n次方
我們把之前的那種不能分的點叫做break point
機器學習系列筆記 八
雜訊與錯誤 noise and error 不同錯誤適用於不同的場景 false accpet 錯誤接受 false reject 錯誤拒絕 商場打折 fbi門禁 各種情況下有不同的權重 weighted classification weighted pocket algorithm 權重口袋演算...
機器學習筆記系列(1)
此系列為周志華老師的 機器學習 個人學習筆記。1.1 基本概念 機器學習所研究的主要內容,是在計算機上從資料中產生 模型 model 演算法,即學習演算法 learning algorithm 有了學習演算法,我們把經驗資料提供給它,它就能基於這些資料產生模型 在面對新的情況時 例如看到乙個沒刨開的...
機器學習系列筆記(一)
通俗來講,機器學習是一門致力於研究如何通過計算的手段,利用資料來改善系統自身的效能的學科。在進行機器學習之前,我們應該提前收集一批資料作為計算機的 經驗 這組資料的集合稱為資料集 其中每條記錄是關於乙個事件或者物件的描述,稱為示例 在事例中反映物件的某方面屬性稱為屬性或特徵 特徵的值稱為屬性值 所有...