統計機器學習之所以區別於傳統機器學習的本質,就在於統計機器學習能夠精確的給出學習的效果,能夠解答需要的樣本數等等一系列問題。與統計機器學習的精密思維相比,傳統的機器學習基本上屬於摸著石頭過河,用傳統的機器學習方法構造分類系統完全成為了一種技巧,乙個人做的結果可能很好,另外乙個人差不多方法做出來卻很差,缺乏指導
和原則。
所謂vc維是對函式的一種度量,可以簡單的理解為問題的複雜程度,vc維越高,乙個問題就越複雜。正是因為svm關注的是vc維,svm解決問題的時候,和樣本的維數是無關的(甚至樣本是上萬維的都可以,這使得svm很適合用來解決文字分類問題,當然,有這樣的能力也因為引入了核函式)。
結構風險最小化:機器學習本質上是一種對真實問題的逼近(我們選擇乙個我們認為比較好的近似模型,這個近似模型就叫做乙個假設),但毫無疑問,真實模型一定是不知道的(如果知道了,我們就不用機器學習了),既然真實模型是不知道,那麼我們選擇的假設和問題真實解之間究竟有多大的差距,我們就沒法知道了。這個與真實問題的誤差,就叫做風險(更嚴格的說,誤差的積累叫做風險)。我們選擇了乙個假設之後(更直觀的說,選擇了乙個分類器之後),真實誤差無從得知,但我們可以用某些可以掌握的量來逼近它。最直觀的想法就是使用分類器在樣本資料上的分類結果與真實結果(因為樣本是已經標註過的資料,是準確的資料)之間的差值來表示。這個差值叫做經驗風險remp(w)。以前的及其學習是把經驗風險最小化作為努力的目標,但後來發現很多分類函式能夠在樣本上做到100%的準確率,在真實分類時卻一塌糊塗(即所謂的推廣能力差,或泛華能力差)。此時的情況便是選擇了乙個足夠複雜的分類函式(它的vc維很高),能夠精確的記住每乙個樣本,但對樣本之外的資料一律分類錯誤。後頭看看經驗風險最小化原則我們會發現,此原則適用的大前提是經驗風險要確實能夠逼近真實風險才行(一致),但實際上能逼近嗎?答案是不能,因為樣本數相對於現實世界要分類的文字數來說簡直九牛一毛,經驗風險最小化原則只在很小比例的樣本上做到了沒有誤差,當然不能保證在更大比例的真實資料文字上也沒有誤差。
統計學習因此引入了泛化誤差界的概念, 就是指真實風險應該由兩部分內容刻畫,一是經驗風險,代表了分類器在給定樣本上的誤差;二是置信風險,代表了我們在多大程度上可以信任分類器在未知文字上分類的結果。很顯然,第二部分是沒有辦法精確計算的,因此只能給出乙個估計的區間,也使得整個誤差只能計算上界,而無法計算準確的值(所以叫泛化誤差界,而不叫泛化誤差)。
ps:準確值置信風險與兩個量有關,一是樣本數量,顯然給定的樣本數量越大,我們的學習結果越有可能正確,此時的置信風險越小;二是分類函式的vc維越大,推廣能力越差,置信風險會變大。x 與近似值x∗
之差稱之為近似值x∗
的絕對誤差。在數值計算中,記為e(
x∗)=
x∗−x
,簡記為e∗
。但一般情況下,不能準確知道e(
x∗) 的大小,可以通過測量或計算|e
(x∗)
|=|x
∗−x|
≤ϵ(x
∗)。估計其絕對值的上界,叫做絕對誤差上界。
泛化誤差界的公式為:r(
w)≤r
emp(
w)+ϕ
(n/h
) ,公式中的r(
w)就是真實風險,remp(w)就是經驗風險, ϕ(
n/h)
就是置信風險。統計學習的目從經驗風險最小化變為了尋求經驗風險和置信風險的和的最小化,即結構風險最小化。
彙編學習筆記001 基礎概念和知識
1.所有儲存器的每個儲存單元都從0開始 2.cpu對資料的讀寫,必須有三類資訊互動 器件的選擇,讀或寫的命令 控制資訊 讀或寫的資料 資料資訊 3.匯流排在邏輯上劃分為 位址匯流排,資料匯流排,控制匯流排 4.乙個字是兩個位元組 byty 乙個位元組是8bit,一bit乙個二進位制數 引言其實就是廢...
機器學習及其基礎概念簡介
機器學習及其基礎概念簡介 2 machine learning python開發工具 anaconda sublime 1 machine learning 機器學習及其基礎概念簡介 2 machine learning 決策樹在商品購買力能力 案例中的演算法實現 3 machine learnin...
統計學習的基本概念
過擬合 over fitting 是指學習時選擇的模型所包含的引數過多,以致於這一模型對已知資料 較好,對未知資料 很差的現象。可以說模型選擇旨在避免過擬合,並提高模型的 能力。泛化能力 generalization ability 是指學習到的模型對未知資料的 能力,是學習方法的重要性質。現實生活...