這是對《統計學習方法》第一章的乙個總結,記錄一些基礎的概念、定義和術語,理清統計學習方法的各個方面,開始系統地學習這個領域。統計學習(statistical learning)是關於計算機基於資料構建概率統計模型,並運用模型對資料進行**與分析的一門學科。統計學習也稱為統計機器學習。統計學習用於對資料進行**和分析。由監督學習(supervised learning)、非監督學習(unsupervised learning)、半監督學習(semi-supervised learning)和強化學習(reinforcement learning)等組成。監督學習方法簡單概括為:使用訓練資料(training data)(資料是獨立同分布產生的),假設要學習的模型屬於某個函式的集合,稱為假設空間(hypothesis space),應用某個評價準則(evaluation criterion),選擇最優的模型,使得訓練資料和測試資料(test data)在給定的準則下最優。
統計學習方法的三要素:
步驟:
方法=模型+策略+演算法
風險函式
損失函式的期望稱為風險函式(risk function)或者期望損失(expected loss),即平均意義下的損失:
\[r_(f)=e_p[l(y,f(x))]=\int_\times \mathcal}l(y,f(x))p(x,y)dxdy
\]
實際上聯合分布$p(x,y)$是未知的,不能直接算出$p(y|x)$,所有才需要學習。這樣一來,一方面根據期望風險最小學習模型要用到聯合分布,另一方面聯合分布又是未知的,所以監督學習就成為了乙個病態問題(ill-formed problem)。
3. 經驗風險最小化
經驗風險最小化(empirical ridk minimization,erm)的策略認為經驗風險最小的模型就是最優模型:$$\min_}\: \frac\sum_^l(y_i,f(x_i))$$這種策略在樣本容量足夠大的時候很好,但是當樣本容量很小的時候,效果未必好,會出現「過擬合」現象。
比如:極大似然估計(maximum likelihood estimation)
4. 結構風險最小化
結構風險最小化(structural risk minimization,srm)是為防止過擬合而提出的策略,其實等價於正則化(regularization)。結構風險在經驗風險上加上表示模型複雜度的正則化項(regularizer)或罰項(penalty term):$$r_(f)=\frac\sum_^l(y_i,f(x_i))+\lambda j(f)$$其中$j(f)$為模型的複雜度,模型$f$越複雜,$j(f)$越大,在這裡對模型的懲罰也越大。所以,結構風險同時對經驗風險和模型複雜度進行權衡,這樣往往對訓練資料和未知的測試資料都有較好的**。
比如:貝葉斯估計中的最大後驗概率估計(maximum posterior probability estimation,map)
訓練誤差(training error)和測試誤差(test error)作為學習方法評估的標準,實際上測試誤差較小的方法具有更好的**能力,是更有效的方法,這種能力稱為泛化能力(generalization ability)
進行模型選擇(model selection)時,有些很複雜的模型常常在訓練資料中比真實模型看上去誤差更小,這種現象稱為過擬合(over-fitting),這些複雜的模型在測試資料中沒有任何優勢。
比如多項式的擬合,如果訓練資料量不是足夠多,複雜的模型(高階多項式)可以擬合的很好,比真實的模型還好(因為資料存在雜訊),但它的泛化能力太弱,沒法很好地**未知資料。所以不能讓模型的複雜度太高,為防止過擬合,有兩種常用的模型選擇方法:正則化和交叉驗證。
正則化是結構風險最小化策略的的實現.正則化(regularization)一般具有如下形式:$$\min_}: =\frac\sum_^l(y_i,f(x_i))+\lambda j(f)$$正則化項隨著模型複雜度的增加而變大,回歸問題中,損失函式是平方損失,正則化項可以是引數向量的\(l_2\)範數。這個正則化項也可以是其他的形式。
另一種常用的模型選擇方法是交叉驗證(cross validation)。
一種簡單的方法:資料量比較充足的時候,隨機地將資料集分成三個部分:訓練集(training set)、驗證集(validation set)、測試集(test set),分別用來進行模型的訓練、選擇、最終評估。但是實際中資料沒那麼充足,可以採用交叉驗證的方法(基本思想是重複使用資料)。
上面的幾種交叉驗證方法,在整個學習的過程中使用了所謂的測試集,實際上它這裡所說的測試集應該看作是驗證集吧,測試集應該完全不被使用,僅僅在最後用來評估選出的模型的效果。泛化能力(generalization ability)是指對未知資料的**能力。泛化誤差(generalization error):$$r_(\hat)=e_p[l(y,\hat(x))]=\int_\times \mathcal}l(y,\hat(x))p(x,y)dxdy$$實際上,泛化誤差就是學習到的模型的期望風險。
一般通過比較兩種學習方法的泛化誤差上界(generalization error bound)來比較它們的優劣。泛化誤差上界的性質:
泛化誤差上界:
對二分類問題,當假設空間是有限個函式集合\(\mathcal f=\left \\)時,對任意乙個函式\(f\in \mathcal f\),至少以概率\(1- \sigma\),以下不等式成立:\[r(f)\leqslant \hat(f)+\varepsilon (d,n,\delta )
\]其中,
\[\varepsilon (d,n,\delta )=\sqrt\left ( \log d+\log\frac \right )}
\]不等式左端\(r(f)\)是泛化誤差,右端為泛化誤差上界。泛化誤差上界中,第一項是訓練誤差,訓練誤差越小,泛化誤差也越小。第二項\(\varepsilon (d,n,\delta )\),\(n\)越大,值越小,假設空間\(\mathcal f\) 包含的函式越多,值越大。
上述定理可通過hoeffding不等式來證明。
(注:本文為讀書筆記與總結,側重演算法原理,**為[《統計學習方法》](一書第一章)
出處:[
統計學習方法筆記1 統計學習方法概論
統計學習是關於計算機基於資料構建概率統計模型並運用模型對資料進行 與分析的一門學科。從資料出發,提取資料的特徵,抽象出資料的模型,發現資料中的知識,又回到對資料的分析與 中去。統計學習關於資料的基本假設是同類資料具有一定的統計規律性,這是統計學習的前提。這裡的同類資料是指具有某種共同性質的資料,例如...
統計學習方法 1 統計學習方法概論
統計學習的主要特點是 1 統計學習以計算機及網路為平台,是建立在計算機及網路之上的 2 統計學習以資料為研究物件,是資料驅動的學科 3 統計學習的目的是對資料進行 與分析 4 統計學習以方法為中心,統計學習方法構建模型並應用模型進行 與分析 5 統計學習是概率論 統計學 資訊理論 計算理論 最優化理...
《統計學習方法》筆記一 統計學習方法概論
好久沒有更新部落格了,這次主要想整理一下之前學習過的機器學習和深度學習有關的知識。我本身數學專業基礎比較薄弱,另外主要做計算機視覺應用所以這個系列的文章並不會涉及很多數學理論知識,學習這些機器學習方法也主要是為了找工作而用,主要了解其中的思想和非常基礎的推導過程。一 統計學習的分類 統計學習方法是基...