2、
3、書籍勘誤表:
自己看書做的筆記。本人屬於初學,水平不高,記錄內容難免有誤。請各位不吝賜教,積極指正。
要是能讓各位看官有所收穫,嘿嘿,那在下就功德無量了(doge)
基礎知識
概率分布:
極大似然估計:
先驗概率和後驗概率:
監督學習 :(supervised learning)的任務是學習乙個模型,使模型能夠對任意給定的輸入,對其相應的輸出做出乙個好的**
監督學習的目的在於學習乙個由輸入到輸出的對映,這一對映由模型來表示.換句話說,學習的目的就在於找到最好的這樣的模型.
無監督學習:給出不帶標籤的資料集,計算機自主發現資料集內部的結構
回歸:設法**連續值的輸出 (房價之類的)
分類:設法**乙個離散值的輸出(如腫瘤是良性還是惡性的)
統計學習三要素:模型+策略+演算法
模型:模型就是所要學習的條件概率或者決策函式。模型的假設空間包含所有可能的條件概率或分布。可以定義為決策函式的集合,也可以定義為條件概率的集合。()
策略:用什麼樣的準則學習或者選擇最優的模型。
代價函式:一次**的好壞
風險函式:平均意義下模型**的好壞
常用的損失(或代價函式)函式:
由於模型的輸入、輸出(x,y)是隨機變數,遵循聯合分布p(x,y),所以損失函式的期望是:$r_(f)=e_p[l(y,f(x))]=\int\limits_l(y,f(x))p(x,y)dxdy$,稱為風險函式(或期望損失)。其中,l(y,f(x))為損失函式,聯合分布p(x,y)是未知的
經驗風險:模型f(x)關於訓練資料集的平均損失稱為經驗風險(或經驗損失),記經驗損失為$r_$,$r_(f)=\frac\sideset{}{}_^l(y_i,f(x_i))$
tips:期望損失:$r_$
經驗損失:$r_$
按照經驗損失最小化求最優模型就是求解最優化問題:$\sideset{}{}_}\frac\sum_^l(y_i,f(x_i))$
機構化風險最小:是為了防止過擬合而提出的策略,結構化風險最小等價於正則化。結構風險在經驗風險上加上表示模型複雜度的正則化項(regularizer)或罰項(penalty term).
在假設空間、損失函式以及訓練資料集確定的情況下,結構風險的定義是$r_(f)=\fracl(y_i,f(x_i))+\lambda j(f)$。
tips:其中$\lambda \ge 0$ ,$j(f)$為模型複雜度,越大模型越複雜,即模型複雜度表示了對複雜模型的懲罰(會使結構風險增加)
演算法:演算法是指學習模型的具體計算方法.統計學習基於訓練資料集,根據學習策略,從假設空間中選擇最優模型,最後需要考慮用什麼樣的計算方法求解最優模型。
訓練誤差:$r_)}=\frac\sum_^nl(y_i,\hat(x_i))$
測試誤差:$e_=\frac}\sum_^}l(y_i,\hat(x_i))$
tips:其中$y=\hat(x)$是學習到的模型,$n$是訓練樣本容量,$n^$是測試樣本容量
過擬合:如果一味追求提高對訓練資料的**能力,所選模型的複雜度則往往會比真模型更高(就是針對性過強了).這種現象稱為過擬合(over-fitting).這種情況下,模型對訓練樣本效果很好,但對測試樣本效果不好。
$l(w)=\frac\sum_^(\sum_^w_jx_i^j-y_i)^2$
$let \frac}=0$,則:
$\frac\sum_^2(\sum_^w_jx_i^j-y_i)x_i^k=0$
$\sum_^\sum_^w_jx_i^=\sum_^x_ky_i$
$\sum_^(\sum_^x_i^)w_j=\sum_^x_i^ky_i$
下面的求和符號上下限都是$i=1$到$n$,即$\sum_^$i=1
'>n
'>, 為了方便略去不寫。
$\beginn&\sum x_i &\sum x_i^2&\cdots& \sum x_i^m\\\sum x_i&\sum x_i^2&\sum x_i^3&\cdots&\sum x_i^\\\sum x_i^2&\sum x_i^3&\sum x_i^4&\cdots&\sum x_i^\\\vdots&\vdots&\vdots&\ddots&\cdots\\\sum x_i^m&\sum x_i^&\sum x_i^&\cdots&\sum x_i^\end\beginw_0\\w_1\\w_2\\\vdots\\w_m\end=\begin\sum y_i\\\sum x_iy_i\\\sum x_i^2y_i\\\vdots\\\sum x_i^my_i\end$
則所求的擬合多項式係數$w_0^*,w_1^*,\cdots,w_m^*$就可以通過解上面的方程組得到,只需要將$\sum\limits_^ x_i^j(j=0,1,2,\cdots,2m)$和$\sum\limits_^x_i^jy_i(j=0,1,2,\cdots,m)$代入其中求解即可
正則化regularization):模型選擇的典型方法,它是在經驗風險上加-乙個正則化項(regularizer)或罰項(penalty terrn)
正則化項一般是模型複雜度的單調遞增函式,模型越複雜,正則化值就越大.比如正則化項可以是模型引數向量的範數.正則化的作用就是選擇經驗風險與模型複雜度同時小的模型。
正則化形式:$\sideset{}{}_}\fracl(y_i,f(x_i))+\lambda j(f)$,其中第一項是經驗風險,第二項是正則化專案,$\lambda \ge 0$為調整兩者之間關係的引數
奧卡姆剃刀原理:
交叉驗證:模型選擇的另一種方法(包括簡單交叉驗證,s折交叉驗證,留一交叉驗證)
若樣本資料充足,可將資料集切分成三部分,分別為訓練集(training set)、驗證集(validation set)和測試集(testset).訓練集用來訓練模型,驗證集用於模型的選擇,而測試集用於最終對學習方法的評估.在學習到的不同複雜度的模型中,選擇對驗證集有最小**誤差的模型.
泛化能力:由該方法學習到的模型對位置資料的**能力
泛化誤差:$r_(f)=e_p[l(y,f(x))]=\int\limits_l(y,f(x))p(x,y)dxdy$(就是損失函式的期望)
機器學習概論
目前,工作中的事情相對少一點,富餘時間比較足,因此,可以拿出一部分時間用來學習下機器學習方面的理論知識與實踐知識。這樣做主要出於兩個方面的目的,一方面是想通過本次整理的系列來增強與梳理自己在機器學習領域中的理解,梳理出自己在機器學習領域中的方 另一方面,提公升自己的實際工作效率。好了,以上說明了本次...
機器學習概論
假如現在有n個房子的面積大小與 我們想通過這些資料得出乙個模型,這個模型的作用是,當我輸入這n個房子之外的其它房子的面積時,模型可以 出它們的 很好,這就是高中學過的線性回歸!機器學習按學習方式可分為 監督學習 無監督學習 強化學習 按演算法可分為 傳統機器學習 深度學習 強化學習 監督學習的任務是...
機器學習 機器學習概論
3 模型評估與模型選擇 4.具體應用 統計學習 是關於計算機基於 資料 構建概率統計模型並運用模型對資料進行 分析 統計學習的三要素 模型在監督學習中,模型就是所要學習的條件概率分布或決策函式。這在後面的章節中會重點介紹。策略 評價模型的標準 用損失函式和代價函式來度量 錯誤的程度。1 幾種損失函式...