統計學習由監督學習(supervised learning)、非監督學習(unsupervised learning)、半監督學習(semi-supervised learning)和強化學習(reinforcement learning)組成。
統計學習方法包括模型的假設空間、模型的選擇準則以及模型學習的演算法,稱其為統計學習方法的三要素:模型(model)、策略(strategy)和演算法(algorithm)。
電腦科學由三維組成:系統、計算和資訊。
模型屬於輸入空間到輸出空間的對映集合,這個集合就是假設空間(hypothesis space)
方法=模型+策略+演算法
如果一味追求對訓練資料的**能力,所選模型的複雜度則往往會比真模型更高,也就是過擬合(over-fiting)。過擬合是指學習室選擇的模型所包含的引數過多,以至於這一模型對已知資料**得很好,但對未知資料測得很差的現象,可以說模型選擇旨在避免過擬合併提高模型的**能力。
模型選擇的典型方法是正則化(regularization)。正則化是結構風險最小化策略的實現。
另一種常用的模型選擇方法是交叉驗證(cross validation)。
將學習方法對未知資料的**能力稱為泛化能力(generalization ability)
泛化誤差generalization error
泛化誤差即學習得到的模型的期望風險計算公式如下:re
xp(f
)=ep
[l(y
,f(x
))]=
∫x∗y
l(y,
f(x)
)p(x
,y)d
xdy
學習方法的泛化能力分析往往是通過研究泛化誤差的概率上界進行的,簡稱泛化誤差上界(generalization error bound)。
生成方法由資料學習聯合**概率分布**p(x,y),然後求出條件概率分布p(y|x)作為**得模型,即生成模型:p(
y|x)
=p(x
,y)p
(x)
這種方法稱為生成方法,表示給定輸入x產生輸出y的生成關係。如:樸素貝葉斯和隱馬爾科夫模型。
判別方法由資料學習決策函式f(x)或者條件概率p(y|x)作為**模型,即判別模型。判別方法關心的是對給定的輸入x,應該**什麼樣的輸出y,典型的判別模型包括:k最近鄰、感知機、決策樹、logistics回歸、最大熵模型、svm、boosting和條件隨機場等。
統計學習方法 機器學習概論
統計學習,或者說機器學習的方法主要由監督學習 無監督學習和強化學習組成 它們是並列的,都屬於統計學習方法 1 假設資料獨立同分布。同資料來源的不同樣本之間相互獨立 2 假設要學習的模型屬於某個函式的集合,稱為假設空間。你確定了這個函式的樣式,就是假設空間,但是函式裡面的引數不確定,要學習。學習的是引...
統計學習方法 1 統計學習方法概論
統計學習的主要特點是 1 統計學習以計算機及網路為平台,是建立在計算機及網路之上的 2 統計學習以資料為研究物件,是資料驅動的學科 3 統計學習的目的是對資料進行 與分析 4 統計學習以方法為中心,統計學習方法構建模型並應用模型進行 與分析 5 統計學習是概率論 統計學 資訊理論 計算理論 最優化理...
統計學習方法概論
這篇文章是對李航 統計學習方法 第一章的乙個回顧,主要是希望對統計學習基本概念 方法做乙個濃縮的總結,希望能對像我一樣的初學者有所幫助。假如有某些地方講的不對的,可以指明,以期促進。統計學習概念 關於計算機基於資料構建概率統計模型並運用模型進行資料 與分析的一門科學。它以計算機及網路為平台,以資料為...