台灣大學林軒田老師機器學習基石 內容簡介

2021-07-10 01:21:40 字數 2355 閱讀 7131

第一周:ml簡介、ml與dm/ai/statistics的區別

第二週:perceptron線性分類器

第三週:從輸入特徵、輸出空間、label狀況、學習方式四方面對ml進行分類

第四周:pac學習原理(盡量大的訓練集d和有限的假設空間h)

第五-七周:'shatter' and vc dimension(打散和vc維度)(無限假設空間,但可以分為有限個不同類別的空間,即vc dimension有限,d盡量大,則學到的model可以較好泛化到測試集)

vc維(vapnik-chervonenkis dimension)的概念是為了研究學習過程

一致收斂的速度和推廣性,由統計學理論定義的有關函式集學習效能的乙個重要指標。

傳統的定義是:對乙個指示函式集,如果存在h個樣本能夠被函式集中的函式按所有可能的2的h次方種形式分開,則稱函式集能夠把h個樣本打散;函式集的vc維就是它能打散的最大樣本數目h。若對任意數目的樣本都有函式能將它們打散,則函式集的vc維是無窮大,

有界實函式的vc維可以通過用一定的閾值將它轉化成

指示函式來定義。

vc維反映了函式集的學習能力,vc維越大則學習機器越複雜(容量越大),遺憾的是,目前尚沒有通用的關於任意函式集vc維計算的理論,只對一些特殊的函式集知道其vc維。例如在n維空間中線形

分類器和線性實函式的vc維是n+1。

所謂shatter(打散),說人話就是:有n個樣本點,每個樣本點可以表示2種可能的情況(比如是否上大學、是否吃了午飯),那麼總共有2^n中不同的組合,【每一種組合】就可以被看成【這n個樣本點的一種shatter】。

所謂(某個模型的)vc dimension,說人話就是:如果乙個模型(或函式)能夠將n個樣本點的【所有組合的】shatter全部分辨出來,而不能分辨出n+1個樣本點的【所有組合的】shatter,那麼稱,這個模型(或函式)的vc dimension是n。用英語解釋是「effective binary degrees of freedom」,往往可以近似看作這個模型(或函式)的引數的數量。

第八周:noise and error和weighted algorithm

第九周:linear regression

所謂closed-form solution:比如正規方程求解w,w=inversed( transport(x)x )transport(x)y,這種能夠用乙個等式直接求解的方式稱為closed-form。

第十周:logistic regression

第十一周:multiclass classification

第十二周:nonlinear hypothesis

第十三周:noise and overfitting

第十四周:regularization

第十五周:cross validation and model selection

我屮艸芔茻,剛看到網易公開課有:

when can machines learn? [何時可以使用機器學習]

-- the learning problem [機器學習問題]

-- learning to answer yes/no [二元分類]

-- types of learning [各式機器學習問題]

-- feasibility of learning [機器學習的可行性]

why can machines learn? [為什麼機器可以學習]

-- training versus testing [訓練與測試]

-- theory of generalization [舉一反三的一般化理論]

-- the vc dimension [vc 維度]

-- noise and error [

雜訊一錯誤]

how can machines learn? [機器可以怎麼樣學習]

-- linear regression [線性回歸]

-- linear `soft' classification [軟性的線性分類]

-- linear classification beyond yes/no [二元分類以外的分類問題]

-- nonlinear transformation [非線性轉換]

how can machines learn better? [機器

可以怎麼樣學得更好]

-- hazard of overfitting [過度訓練的危險]

-- preventing overfitting i: regularization [避免過度訓練一:控制調適]

-- preventing overfitting ii: validation 

[避免過度訓練二:自我檢測]

-- three learning principles

[三個機器學習的重要原則]

台灣大學林軒田機器學習基石筆記(一)

1.什麼是學習?對人類來說學習就是通過觀察 視覺 聽覺 嗅覺等 掌握某種技能。比如我們從到大認識世界的過程。對於機器學習,我們希望計算機能夠像人類一樣,通過在大量的資料中觀察,發現事物的規律,獲得某種分析與解決問題的能力。所要解決的問題存在一些規律或者模式,可以通過學習提高表現 exists som...

台灣大學機器學習

第三章 機器學習的不同類別 三個角度 1 二分類,多分類,回歸,struction learning 不常見 2 監督學習,非監督學習,半監督學習 比如人臉識別中,不是每個樣本我們都能知道其類別,增強學習 訓狗,深藍計算機的智慧型下棋 3 batch learning,online learning...

台大 林軒田老師 機器學習基石學習筆記2

第一節課中,主要講解的是機器學習的基本思路和相關的應用,算是一種對機器學習的大致介紹和簡單的科普。到了第二講,林老師將重點放在了pla演算法上,通過這個演算法讓機器學習的演演算法大門正式開啟了。對於機器學習,類似人的成長一般,一般是先學會判斷是和不是,所以這一講是介紹一種可以回答是非題的機器學習演演...