統計學習及監督學習概論(4)

2022-03-18 15:20:37 字數 1810 閱讀 9359

《統計學習方法》(第二版)1.6 ~ 1.8

用學到的模型\(\hat f\)對未知資料**的誤差即為泛化誤差(generalization error)。

泛化誤差反映了學習方法的泛化能力。事實上,泛化誤差就是所學習到的模型的期望風險

泛化誤差上界(generalization error bound)

性質:是樣本容量的函式,當樣本容量增加時,泛化上界趨於0;

是假設空間容量的函式,假設空間容量越大,模型就越難學,泛化誤差上界就越大。

二類分類問題的泛化誤差上界

期望風險\(r(f) = e[l(y, f(x))]\)

經驗風險\(\hat r(f)=\frac\sum_^nl(y_i,f(x_i))\)

經驗風險最小化函式\(f_n=\arg \min_ \hat r(f)\)

\(f_n\)的泛化能力\(r(f_n)=e[l(y, f_n(x))]\)

定理對二類分類問題,當假設空間是有限個函式的集合\(f=\\)時,對任意乙個函式\(f \in f\),至少以概率\(1-\delta,0 \lt \delta \lt 1\),以下不等式成立:

\[r(f) \le \hat r(f)+\epsilon(d,n,\delta)

\]其中,

\[\epsilon(d,n,\delta)=\sqrt(logd+log\frac}

\]第1項是訓練誤差,第2項時n的單調遞減函式,也是\(\sqrt\)階的函式。

\[監督學習方法

\left\

生成方法 && → && 生成模型\\

判別方法 && → && 判別模型\\

\end

\right.

\]模型表示了給定輸入x產生輸出y的生成關係。

生成方法可以還原出聯合概率分布p(x,y),而判別方法則不能;

生成方法的學習收斂速度更快,即當樣本容量增加的時候,學到的模型可以更快地收斂於真實模型;

當存在隱變數時,仍可以用生成方法學習,此時判別方法就不能用。

e.g.樸素貝葉斯法和隱馬爾可夫模型

由資料直接學習決策函式f(x)或者條件概率分布p(y|x)作為**模型,即判別模型。

判別方法直接學習的是條件概率p(y|x)或決策函式f(x),直接面對**,往往學習的準確率更高;

由於直接學習p(y|x)或f(x),可以對資料進行各種程度上的抽象、定義特徵並使用特徵,因此可以簡化學習問題。

e.g.k近鄰法、感知機、決策樹、邏輯斯諦回歸模型、最大熵模型、支援向量機、提公升方法和條件隨機場

在監督學習中,當輸出變數y取有限個離散值時,**問題便成為分類問題。

e.g.二分問題

tp:將正類**為正類數

fn:將正類**為負類數

fp:將負類**為正類數

tn:將負類**為負類數

評價指標:

\[精確率:p=\frac

\]\[召回率:r=\frac

\]\[精確率和召回率的調和均值:\frac=\frac+\frac\\

f_1=\frac

\]e.g.k近鄰法、感知機、樸素貝葉斯法、決策樹、決策列表、邏輯斯諦回歸模型、最大熵模型、支援向量機、提公升方法、貝葉斯網路、神經網路、winnow

標註問題的輸入是乙個觀測序列,輸出是乙個標記序列或狀態序列。

example:對乙個單詞序列**其對應的詞性標記序列。

e.g.隱馬爾可夫模型、條件隨機場

回歸模型表示從輸入變數到輸出變數之間對映的函式。

example:股價**

統計學習及監督學習概論(3)

統計學習方法 第二版 1.4 1.5 當評估時使用的損失函式給定時,訓練誤差和測試誤差成為學習方法評估的標準。測試誤差反映了學習方法對未知的測試資料集的 能力 泛化能力 1 當選擇的模型複雜度過大時,過擬合現象就會發生。過擬合是指學習時選擇的模型所包含的引數過多,以至出現這一模型對已知資料 得很好,...

統計學習及監督學習概論(2)

統計學習方法 第二版 1.3 模型就是所要學習的條件概率分布或決策函式。損失函式和風險函式 損失函式度量模型一次 的好壞。風險函式度量平均意義下模型 的好壞。損失函式loss function 代價函式cost function 風險函式risk function r f e p l y,f x b...

統計學習及監督學習概論(1)

統計學習方法 第二版 1.1 1.2 statistical learning,關於計算機基於資料構建概率統計模型並運用模型對資料進行 與分析的一門學科。學習,即乙個系統能夠通過執行某個過程改進它的效能。基本假設 同類資料具有一定的統計規律性 資料型別 離散變數 連續變數 得到乙個有限的訓練資料 t...