3、模型評估與模型選擇
4.具體應用
統計學習:是關於計算機基於++資料++構建概率統計模型並運用模型對資料進行**分析
統計學習的三要素:
模型在監督學習中,模型就是所要學習的條件概率分布或決策函式。這在後面的章節中會重點介紹。
策略:評價模型的標準
用損失函式和代價函式來度量**錯誤的程度。
1、幾種損失函式:
(1). 0-1損失函式
l(y,f(x)) = \left\
1, &y \neq f(x) \\
0,&y = f(x)
\end\right.
(2). 平方損失函式:
l(y,f(x)) = (y-f(x))^2
(3). 絕對損失函式:
l(y,f(x)) = \begin
y-f(x)
\end
(4). 對數損失函式/對數似然損失函式:
l(y,f(x)) = -logp(y|x)
損失函式值越小,模型就越好。由於模型的輸入、輸出(x,y)是隨機變數,遵循聯合分布p(x,y),所以損失函式的期望是
r_(f) = e_[l(y,f(x))] = \int_l(y,f(x))p(x,y)dxdy
這是模型f(x)關於聯合分布p(x,y)的平均意義下的損失,稱之為風險函式,或期望損失(expected risk)。學習的目標是選擇期望損失最小的模型。但是聯合分布未知,所以損失函式無法求得。這時要引入經驗風險(empirical risk)。
r_(f) = \frac\sum_^l(y_,f(x_))
期望風險是模型關於聯合分布的期望損失,經驗風險是模型關於訓練樣本集的平均損失。根據大數定律,當樣本容量n趨於無窮時,經驗風險趨於期望風險。由於資料樣本有限,有時經驗風險估計並不理想,要對經驗風險進行一定的矯正。這就關係到監督學習的兩個基本策略:經驗風險最小化和結構風險最小化。
2、經驗風險最小化與結構風險最小化
經驗風險最小化(empirical risk minimization,erm)的策略認為,經驗風險最小的模型是最優的模型。
\min_\frac\sum_^l(y_,f(x_))
當樣本容量足夠大時,經驗風險最小化能保證有很好的學習效果,在現實中被廣泛採用,如極大似然估計。當模型是條件概率分布,損失函式式對數損失函式時,經驗風險最小化就等價於極大似然估計。
但是,當樣本容量很小時,經驗風險最小化學習的效果就未必很好,容易產生過擬合現象。
結構風險最小化(structural risk minimization,srm)是為了防止過擬合而提出來的策略。結構風險最小化等價於正則化。結構風險在經驗風險上加上表示模型複雜度的正則化項(regularization)或罰項(penalty term),在假設空間、損失函式以及訓練資料確定的情況下,結構風險的定義是
r_(f) =\frac\sum_^l(y_,f(x_)) + \lambda j(f)
其中j(f)為模型的複雜度,λ>=0,用以權衡經驗風險和模型複雜度。結構風險小需要經驗風險與模型複雜度同時小。如貝葉斯估計中的最大後驗概率估計。當模型是條件概率分布、損失函式時對數損失函式、模型複雜度由模型的先驗概率表示時,結構風險最小化就等價於最大後驗概率估計。
結構風險最小化策略認為結構風險最小的模型是最優的模型,所以求最優模型,就是求最優化問題:
\min_\frac\sum_^l(y_,f(x_)) + \lambda j(f)
這樣,監督學習問題就變成了經驗風險或結構風險函式的最優化問題。
演算法演算法是指學習模型的具體計算方法。統計學習基於訓練資料集,根據學習策略,從假設空間中選擇最優模型,最後需要考慮用什麼樣的計算方法求解最優模型。
統計學習的目的是使學到的模型不僅對已知資料而且對未知資料都能有很好的**能力。當損失函式給定時,基於損失函式的模型的訓練誤差和模型的測試誤差就成為學習方法評估的標準。
在模型選擇的過程中,需要注意模型複雜度的問題,即過擬合的問題。模型選擇的方法:正則化與交叉驗證。
(1)正則化
模型選擇的典型方法是正則化,正則化是結構風險是最小化策略的實現,是在經驗風險上加乙個正則化項或罰項。正則化項一般是模型複雜度的單調遞增函式,模型越複雜,正則化值就越大
\min_\frac\sum_^l(y_,f(x_)) + \lambda j(f)
第一項是經驗風險,第2項是正則化項,λ>=0為調整兩者之間的關係係數。
正則化可以取不同的形式。
l2範數:
l(w) = \frac\sum_^(f(x_;w)-y_)^2+\frac\beginw\end^2
l1範數:
l(w) = \frac\sum_^(f(x_;w)-y_)^2+\frac\beginw\end_
(2)交叉驗證
將資料分為三部分,分為三部分,訓練集,測試集,驗證集。幾種方法。1)簡單交叉驗證,2)s折交叉驗證,3)留一交叉驗證。
評價指標:精確率,召回率,f1值
精確率:
p=\frac
召回率:
r=\frac
f1值:
\frac = \frac + \frac
f_ = \frac
精確率和召回率都高時,f1值也會高。
分類演算法有knn,樸素貝葉斯,決策樹。。。
如,hmm,條件隨機場
機器學習 機器學習目錄
注 後期有時間的話會對每乙個演算法進行講解。1 普通線性回歸 2 廣義線性模型 3 邏輯回歸 4 線性判定分析1 決策樹基本原理與構建 2 cart演算法 3 回歸決策樹 4 分類決策樹1 貝葉斯定理與樸素貝葉斯 2 高斯貝葉斯分類器 3 多項式貝葉斯分類器 4 伯努利貝葉斯分類器 5 遞增式學習1...
機器學習 機器學習基礎
資料集劃分的api 返回值 訓練特徵,測試特徵,訓練目標,測試目標 方式1 獲取小規模的資料集 importsklearn.datasets as datasets iris datasets.load iris 提取樣本資料 feature iris data target iris target...
機器學習 機器學習資料積累
前面我曾經發帖推薦過網上的一些做 影象處理和計算機視覺的 有料部落格資源,原帖位址 1 首先,是豆瓣上的資料鋪子主頁 因為我個人多是用r來做資料探勘和分析,所以主頁菌的內容很對我的胃口。這個主頁裡有大量用r做資料探勘的內容。我也向博主偷師了很多。儘管主頁菌已經停止更新內容了,但是現有的部分 其實文章...