機器學習中所謂的學習就是從海量資料中學習到「經驗」,再將這種「經驗」應用與對未知資料的**與分析!而這種思想的本質就是來自於統計學。可以所以說機器學習的本質就是統計學習方法,所以要研究機器學習的原理,就一定要從統計學習開始!
機器學習中的學習演算法通常分為4類:
監督學習:資料為的資料都是有標籤的資料,然後對資料集資料進行學習,通過學習到的方法對新資料進行**的學習方式。
無監督學習:與監督學習相反的,無監督學習我們餵給她 的無標籤的資料,對資料進行聚類等方式進行學習從而可以實現**的共嗯那個
還有兩種分類的演算法用到的不多,或者說是我用的不多,他們是半監督學習和強化學習,不過據說強化學習很厲害,有時間研究下!!!!
方法=模型+策略+演算法
統計學習的三要素對所有分類的學習方法都適用,之後對所有方法的討論都將遵循這三個要素!
這篇文章主要介紹下對監督學習介紹下!
在監督學習過程中,模型的選擇就是,下面兩者之一
回顧下」極大似然估計「監督學習中,一直在圍繞著乙個思想在做延伸,其實這種思想非常好理解。其核心思想就是,我現在知道了事情的結果了,我想知道是誰幹的?
也就是說我知道了實驗的結果,這個實驗的分布模型我們已經知道了,但是這個模型裡面乙個引數是不知道的,那麼我就去求讓實驗結果同時發生的概率(密度)最大化(最有可能發生)時候的引數是多少。
這個邏輯和我們正常已知分布模型和引數去求概率是個反向的過程
比如我們自己做乙個萬能公式去**一些資料,我們來怎麼認定我們的萬能公式是好的呢?所謂**,就是**值要無限的趨近於真實值,最理想的模型就是**值=真實值,如果可以做到這點,那麼我們這個模型就非常完美了,但現實中很難做到。所以我們就在我們的**公式後面再加一項來彌補兩者的誤差—-**損失函式**l(y,f(x))。
通常,損失函式的期望e[l(y,f(x))]被定為為風險函式或期望損失。
那麼問題來了,怎麼求解風險函式呢?答案是,沒辦法求解,為什麼呢?
因為聯合概率密度p(x,y)是未知的,所以在無法通過這種方式求解,那我們就另闢蹊徑!因為我們知道下面的公式:
根據這個原理,我們重構我們的風險函式,因為重構後的是根據經驗資料得到的期望,故稱其為經驗風險:
好了,到此處,我們的學習策略從損失函式最小化公升級為經驗風險最小化。
應用這個經驗風險有個前提條件就是(根據其原理公式),要在樣本資料足夠大的時候,根據大數定律,樣本均值等於樣本期望。
但是,當樣本容量很小,階數過高時候,引數往往沒有抑制項,就是說沒人約束引數了,這樣經驗風險中的引數theta有時候就會很大,導致過擬合,所以為了解決這個問題,引出了「懲罰項」(正則項),也就是對經驗函式進行正則化。從而抑制過擬合。
好了,到這裡,我們將經驗風險最小化公升級為經驗風險最小化或者結構風險最小化的問題。
其實這個很好理解,但此演算法非彼演算法,而是數學演算法,就是在模型有了,策略有了的基礎上,我們該通過什麼樣的數學思想來求出我們想要的東西的呢?這種思想就是這裡說的監督學習的演算法
我們所有的監督學習的學習策略都遵循這這一原則。
相信大家看完這篇能對整個統計學習方法,監督學習有個整體性的認識.我也剛剛接觸演算法不久肯定有很多不足!希望批評指正,接下來我將寫監督學習的回歸和分類演算法的文章,希望能把所有的知識邏輯織成乙個網.
統計學習方法 1 統計學習方法概論
統計學習的主要特點是 1 統計學習以計算機及網路為平台,是建立在計算機及網路之上的 2 統計學習以資料為研究物件,是資料驅動的學科 3 統計學習的目的是對資料進行 與分析 4 統計學習以方法為中心,統計學習方法構建模型並應用模型進行 與分析 5 統計學習是概率論 統計學 資訊理論 計算理論 最優化理...
統計學習方法
這兩天翻了一下這本書,做個筆記,方便下次細看。本書主要講解統計學習中用到的監督學習。介紹了一些模型機器演算法。當參考書不錯,不怎麼適合死磕。第一章 主要介紹機器學習,統計學習的基本步驟,以及常用的表示方法。寫的比較系統,對於這個比較不熟悉的,可以好好看看。因為常用的模型就是這樣表示的,懂了這個看公式...
統計學習方法
第一章 方法概述 統計學習方法三要素 模型,策略,演算法 監督學習的重要問題 分類問題 classification 應用 銀行構建客戶分類模型,網路安全利用日誌資料對入侵檢測,影象處理檢測影象中是否有人臉,手寫識別識別分類手寫數字,網際網路搜尋網頁分類 二類分類評價指標 精確度,召回率,f1值 標...