關於《統計學習方法》的學習,第一章

2021-08-14 23:18:57 字數 3281 閱讀 5269

1.1統計學習

統計學習的物件:資料。

統計學習的目的:對資料進行**與分析

統計學習的方法:監督學習(supervised learning)、非監督學習(unsupervised learning)、半監督學習(semi-supervised learning)和強化學習(reinforcement learning)。其中監督學習的統計學習方法包括模型的假設空間、模型選擇的標準就以及模型學習的演算法,稱為統計學習方法的三要素,簡稱為模型(model)、策略(strategy)、和演算法(algorithm)。

實現統計學習方法的步驟:(1)得到乙個有限的訓練資料集合;(2)確定包含所有可能的模型的假設空間,即學習模型的集合;(3)確定模型選擇的準則,即學習的策略;(4)實現求解最優模型的演算法,即學習的演算法;(5)通過學習方法選擇最優模型;(6)利用學習的最優模型對新資料進行**或分析。

1.2監督學習

監督學習利用訓練資料集學習乙個模型,再用模型對測試樣本集進行**(prediction)。由於在過程中需要訓練資料集,而訓練資料集往往是人工給的,所以稱為監督學習。

監督學習:輸入空間(input space)、輸出空間(output space)、特徵向量(feature vector)、特徵空間(feature space)、訓練資料(training data)、測試資料(test data)、樣本(sample)、假設空間(hypothesis space)。

種類:(1)輸入變了與輸出變數均為連續變數的**問題稱為回歸問題;(2)輸出變數為有限個離散變數的**問題稱為分類問題;(3)輸入變數與輸出變數均為變數序列的**問題稱為標註問題。

監督學習模型:概率模型,由條件概率分布p(y|x)表示;非概率模型由決策函式(decision funciton)y=f(x)表示。

1.3統計學習三要素

方法 = 模型 + 策略 + 演算法

模型:所要學習的條件概率分布或決策函式。

策略:按照一定準則學習或選擇最優的模型。

損失函式:度量模型一次**的好壞;風險函式(risk function)[期望損失(expected loss)]:度量平均意義下模型**的好壞。

常用的損失函式:0-1損失函式;平方損失函式;絕對損失函式;對數損失函式(對數似然損失函式)

根據大數定律,當樣本容量趨於無窮時,經驗風險(empirical risk)[經驗損失(empirical loss)]趨於期望損失。利用經驗風險最小化和結構風險最小化。

1.4模型評估與模型選擇

當假設空間含有不同複雜度的模型進行模型選擇時,如果一味追求提高對訓練資料的**能力,所選模型的複雜度則往往會比真模型更高,稱為過擬合(over-fitting)。這種選出來的模型,對已知資料**的很好,但是對未知資料**的很差。比如在多項式函式擬合中可以發現,隨著多項式次數(模型複雜度)的增加,訓練誤差會減小,直至趨於0,但是測試誤差卻不如此,它會隨著多項式次數的增加先減小而後增大。

1.5兩種常用的模型選擇方法:正則化與交叉驗證。

正則化:結構風險最小化策略的實現,是在經驗風險上加乙個正則化項。正則化項一般是模型複雜度的單調遞增函式,模型越複雜,正則化值就越大。比如模型引數向量的範數。正則化的作用是選擇經驗風險與模型複雜度同時較小的模型。

交叉驗證:(1)簡單交叉驗證(2)s折交叉驗證(3)留一交叉驗證

1.6泛化能力

泛化能力:指由一學習方法學習到的模型對未知資料的**能力。

泛化誤差上界性質:它是樣本容量的函式,當樣本容量增加時,泛化上界趨於0;它是假設空間容量(capacity)的函式,假設空間容量越大,模型就越難學,泛化誤差上界就越大。(hoeffding不等式)

1.7生成模型與判別模型

生成方法由資料學習聯合概率分布p(x,y),然後求出條件概率分布p(y|x)作為**的模型,即生成模型。這樣的方法稱為生成方法,是因為模型表示了給定輸入x產生輸出y的生成關係。典型的生成模型有:樸素貝葉斯法和隱馬爾可夫模型。

生成方法的特點:生成方法可以還原出聯合概率分布p(x,y),而

判別方法則不能;生成方法的學習收斂速度更快,即當樣本容量增加

的時候,學到的模型可以更快地收斂於真實模型;當存在隱變數時,

仍可以用生成方法學習,此時判別方法就不能用。

判別方法由資料直接學習決策函式f(x)或者條件概率分布p(y|x)作為**的模型,即判別模型。判別方法關心的是對給定的輸入x,應該**什麼樣的輸出y。典型的判別模型包括:k近臨法、感知機、決策樹、邏輯斯蒂回歸模型、最大熵模型、支援向量機、提公升方法和條件隨機場。

判別方法的特點:判別方法直接學習的是條件概率p(y|x)或決策函式f(x),直接面對**,往往學習的準確率更高;由於直接學習p(y|x)或f(x),可以對資料進行各種程度上的抽象、定義特徵並使用特徵,因此可以簡化學習問題。

1.8分類問題

監督學習從資料中學習乙個分類模型或分類決策函式,稱為分類器(classifier)。

評價分類器效能的指標一般是分類準確率(accuracy):對於給定的測試資料集,分類器正確分類的樣本數與總樣本數之比。對於二分類問題通常採用精確率(precision)與召回率(recall)。

tp——將正類**為正類數;

fn——將正類**為負類數;

fp——將負類**為正類數;

tn——將負類**為負類數;

精確率定義為:p = tp/(tp+fp)

召回率定義為:r = tp/(tp+fn)

1f值為精確率和召回率的調和均值,f1 = 2tp/(2tp +fp + fn )

統計學習方法可以用於分類,包括k近鄰法、感知機、樸素貝葉斯法、決策樹、決策列表、邏輯斯諦回歸模型、支援向量機、提公升方法、貝葉斯網路、神經網路、winnow等。

1.9標註問題

標註(tagging)也是乙個監督學習問題。可以認為標註問題是分類問題的乙個推廣,標註問題又是更複雜的結構**(structure prediction)問題的簡單形式。標註問題的輸入是乙個觀測序列,輸出是乙個標記序列或狀態序列。

評價標註模型的指標與評價分類模型的指標一樣,有標註準確率、精確率和召回率。其定義與分類模型相同。

標註常用的統計學習方法有:隱馬爾可夫模型、條件隨機場。

1.10回歸問題

回歸用於**輸入變數(自變數)和輸出變數(因變數)之間的關係,特別是當輸入變數的值發生變化時,輸出變數的值隨之發生的變化。回歸模型正是表示從輸入變數到輸出變數之間對映的函式。回歸問題的學習等價於函式擬合:選擇一條函式曲線使其很好地擬合已知資料且很好地**未知資料。

回歸問題按照輸入變數的個數,分為一元回歸和多元回歸;按照輸入變數和輸出變數之間關係的型別即模型的型別,分為線性回歸和非線性回歸。

回歸學習最常用的損失函式是平方損失函式,在此情況下,回歸問題可以由著名的最小二乘法(least squares)求解。

統計學習方法 第一章

1.統計學習的特點 2.統計學習的物件 對資料的基本假設 同類資料具有一定的統計規律性 3.統計學習的目的 4.統計學習方法 1.基本概念 x x 1,x 2,x i x n t x i x i 1 x i 2 x in t t x 1 y 1 x 2 y 2 x n y n 2.聯合概率分布 3....

統計學習方法第一章

1.numpy.poly1d 1,2,3 import numpy as np np.poly1d 1 2,3 poly1d 1 2,3 r np.poly1d 1 2,3 print r 1 62.from scipy.optimize import leastsq 表示scipy.optimiz...

統計學習方法 第一章

1.3 統計學習三要素 1.4 模型評估與模型選擇 1.5 正則化與交叉驗證 1.6 泛化能力 1.7 生成模型與判別模型 1.8 分類問題 1.9 標註問題 1.10 回歸問題 統計學習是關於計算機基於資料構建概率統計模型並運用模型對資料進行 與分析的一門學科,統計學習也稱為統計機器學習。如果乙個...