統計學習方法 概論

2021-08-28 07:58:20 字數 2652 閱讀 6849

前段時間把python的pandas、numpy、matplotlib、seaborn包拿來反覆練習了一番,對於資料的觀察、處理、清洗以及視覺化有了一定的認識。

隨著練習的深入,乙個問題在我心中逐漸形成:

乙份資料的價值,通過清洗、多維度視覺化就完全可以被展現出來了麼?

還不夠,還遠遠不夠!於是我開始感受到知識儲備的匱乏了。

還好前面有老司機帶路,於是我琢磨著從理論基礎入手,結合實操快速提公升資料探勘能力。

接下來的兩到三個月,我會集中精力攻破李航的《統計學習方法》,本書共11章,計畫1周1-2章(視章節情況而定),其中對於資料探勘有幫助的知識,我會分享出來,與大家共勉~~

不要被「統計學習」的名字誤導,它不只是統計學,它的全名是「統計機器學習」,是計算機系統通過運用資料及統計方法提高系統效能的機器學習。

統計學習三要素:

模型-在監督學習過程中,模型就是所要學習的條件概率分布p(y|x)或決策函式y=f(x),是乙個假設空間

策略-從假設空間中選取最優模型的過程,是將損失函式(期望風險、經驗風險)最小化的策略

演算法-學習模型的具體計算方法,是求解最優化問題的演算法

確定了模型、策略、演算法三要素,統計學習方法也就確定了,後面的所有章節,其實都是在**具體問題的三要素。

選擇模型,就是在選擇假設空間,選擇假設空間,就是在選擇輸入變數個數以及與輸出變數可能的關係模型集合。

過擬合我們選擇的輸入變數越多,那麼對於已知資料的**結果可能越準確,但是對於未知資料**的準確性卻會隨著輸入變數個數的增加而呈先增加後減少的結果,這就是過擬合

學習時選擇的模型所包含的引數太多,以至於出現這一模型對已知資料**得很好,但對未知資料**得很差的現象。

模型選擇

為了防止過擬合,模型選擇時,不僅要考慮對已知資料的**能力,還要考慮對未知資料的**能力(泛化能力)。

防止過擬合,常用的方法有正則化和交叉驗證。

泛化能力

泛化能力是由學習方法學習得到的模型對於未知資料的**能力,期望風險越小,泛化能力越強。

那麼兩種學習方法的優劣用什麼指標來衡量呢?

答案是泛化誤差上界,它指的是泛化誤差概率的上限。

兩類模型

機器學習中的監督學習,主要有兩類模型劃分:

生成模型-由資料學習聯合概率分布(概率密度函式)p(x,y),然後求出條件概率分布p(y|x)作為**的模型,即生成模型。

判別模型- 由資料直接學習決策函式f(x)或條件概率分布p(y|x)作為**的模型,即判別模型

生成模型 vs 判別模型

相比於判別方法,生成方法可以還原出聯合概率分布p(x,y);學習收斂速度更快;存在隱變數時也可以使用生成方法學習;

相比於生成方法,判別方法直接學習的時條件概率或決策函式,直接面對**,往往學習的準確率更高;可以對資料進行各種程度上的抽象、定義特徵等,簡化學習問題

生成模型,更關心給定輸入x產生輸出y的生成關係;

判別模型,更關心給定輸入x,應該**什麼樣的輸出y。

分類問題(classify)

定義:當輸出變數y是有限個離散值時,**問題便成為分類問題,此時的輸入變數x可以時離散也可以是連續的。

過程:學習-根據已知的訓練資料集,利用有效的學習方法學習乙個分類器(分類模型、分類決策函式)

分類-利用學習的分類器對新的輸入例項進行分類

標註問題(tagging)

定義:學習乙個模型,使它能夠對觀測序列給出標記序列作為**。

過程:學習-基於訓練資料集構建乙個模型,表示為條件概率分布

標註-按照學習到的條件概率分布模型,

對新的輸入觀測序列找到相應的輸出標記序列

回歸問題(regression)

定義:用於**輸入變數和輸出變數之間的關係,特別是當輸入變數的值發生變化時,輸出變數的值隨之發生的變化。

過程:學習-基於訓練資料構建乙個模型y=f(x)

**-對新的輸入x,根據學習到的模型確定相應地輸出

本文總結了《統計學習方法》第一章內容,圍繞統計學習三要素——模型、策略、演算法,進行概念普及,後面的章節都會基於這三要素進行學習。

下週我會分享關於機器學習元老方法-感知機,以及常用方法-k近鄰法的有關知識點,敬請期待~~

《統計學習方法》 李航 chapter1

統計學習方法 1 統計學習方法概論

統計學習的主要特點是 1 統計學習以計算機及網路為平台,是建立在計算機及網路之上的 2 統計學習以資料為研究物件,是資料驅動的學科 3 統計學習的目的是對資料進行 與分析 4 統計學習以方法為中心,統計學習方法構建模型並應用模型進行 與分析 5 統計學習是概率論 統計學 資訊理論 計算理論 最優化理...

統計學習方法概論

這篇文章是對李航 統計學習方法 第一章的乙個回顧,主要是希望對統計學習基本概念 方法做乙個濃縮的總結,希望能對像我一樣的初學者有所幫助。假如有某些地方講的不對的,可以指明,以期促進。統計學習概念 關於計算機基於資料構建概率統計模型並運用模型進行資料 與分析的一門科學。它以計算機及網路為平台,以資料為...

統計學習方法概論

本文是學習李航寫的 統計學習方法 一書第一章 統計學習方法概論 所做的乙個筆記,主要就是對第一章的總結。1.統計學習 統計學習是關於計算機基於資料構建概率統計模型並運用模型對資料進行 與分析的一門學科,統計學習也稱統計機器學習。由此可以看出統計學習的研究物件是資料,目的是對資料進行 與分析。同時,統...