本文是一篇學習筆記,參考《統計學習方法》一書加上自己的理解,對整個統計學習方法有個整體把握。
拿到一些資料,發現這些資料中的規律或知識,將這些規律或知識用來分析新的資料,這就是統計學習。
不難發現,統計學習有乙個基本假設:同類資料具有一定的統計規律性。
而統計學習的目的就是:對新資料進行**和分析。
以監督學習為主進行討論。
監督學習:學習乙個模型,使模型能夠對任意給定的輸入,都可以很好地**乙個輸出。
統計學習方法有三要素:模型+策略+演算法。
模型 在監督學習中,模型表現有兩種表現形式:
首先需要定義乙個假設空間,這個假設空間包含所有可能的條件概率分布或決策函式。下一步就是用一定的策略去找乙個最好的條件概率分布或決策函式。
策略通常用損失函式和風險函式來度量模型**好壞。兩者的區別是,損失函式度量一次**的好壞,風險函式度量平均意義下**的好壞。兩者的關係是,風險函式是損失函式的數學期望。
我們希望風險函式越小越好,所以風險最小的模型就是最好的模型。
為了防止「過擬合」現象,通常需要在風險函式上加上乙個表示模型複雜度的正則項,構成目標函式。
最終,監督學習問題變成了目標函式的最優化問題。
演算法由於監督學習問題歸結為最優化問題,因此,需要有乙個演算法來得到這個最優解。
學習方法評估標準:
訓練誤差——模型關於訓練集的平均損失
測試誤差——模型關於測試集的平均損失
如果訓練誤差小,測試誤差大,說明出現了過擬合。此時模型複雜度往往過高,對未知資料的**能力不強,也就是泛化能力不強。
我們希望最終訓練誤差和測試誤差都比較小。
今天就到這裡。由於是對整個統計學習框架的感性認識,所以沒有公式也沒有圖表。在往後學習過程中有新的體會再進行補充。——2016.5.24
統計學習方法 1 統計學習方法概論
統計學習的主要特點是 1 統計學習以計算機及網路為平台,是建立在計算機及網路之上的 2 統計學習以資料為研究物件,是資料驅動的學科 3 統計學習的目的是對資料進行 與分析 4 統計學習以方法為中心,統計學習方法構建模型並應用模型進行 與分析 5 統計學習是概率論 統計學 資訊理論 計算理論 最優化理...
統計學習方法概論
這篇文章是對李航 統計學習方法 第一章的乙個回顧,主要是希望對統計學習基本概念 方法做乙個濃縮的總結,希望能對像我一樣的初學者有所幫助。假如有某些地方講的不對的,可以指明,以期促進。統計學習概念 關於計算機基於資料構建概率統計模型並運用模型進行資料 與分析的一門科學。它以計算機及網路為平台,以資料為...
統計學習方法概論
本文是學習李航寫的 統計學習方法 一書第一章 統計學習方法概論 所做的乙個筆記,主要就是對第一章的總結。1.統計學習 統計學習是關於計算機基於資料構建概率統計模型並運用模型對資料進行 與分析的一門學科,統計學習也稱統計機器學習。由此可以看出統計學習的研究物件是資料,目的是對資料進行 與分析。同時,統...