李航 統計學習方法 筆記 1 統計學習方法概論

2022-09-11 22:51:40 字數 2323 閱讀 5245

統計學習由監督學習、非監督學習、半監督學習和強化學習等組成,本書主要討論監督學習。

監督學習的任務是學習乙個模型,使模型能夠對任意給定的輸入,對其相應的輸出做出乙個好的**。

方法=模型+策略+演算法

在監督學習過程中,模型就是所要學習的條件概率分布或決策函式。

「策略即從假設空間中選取引數最優模型,模型的分類或**結果與實際情況的誤差越小,模型就越好」

損失函式度量模型一次**的好壞,風險函式(期望損失)即損失函式的期望用來度量平均意義下模型**的好壞,但風險函式無法計算;

模型關於訓練資料集的平均損失稱為經驗風險(經驗損失),當樣本數量無限大時,經驗損失就趨近於期望損失,但樣本數目有限。

經驗風險最小化策略:認為經驗風險最小的模型是最優模型。樣本容量足夠大時學習效果好,但樣本容量很小時,容易產生過擬合。例極大似然估計。

結構風險最小化(正則化)策略:為了防止過擬合提出的,在經驗風險的基礎上加上表示模型複雜度的罰項。用大於等於0的係數平衡經驗風險和模型複雜度的關係。例貝葉斯估計,正則化是結構風險最小化策略的實現,作用是選擇經驗風險和模型複雜度同時較小的模型,正則化符合奧卡姆剃刀原理(簡單有效「如無必要,勿增實體」)。

這樣監督學習問題就轉變成為經驗風險或結構風險的最優化問題

「演算法是指學習模型的具體計算方法,也就是如何求解全域性最優解,並使求解過程高效,本質就是計算機演算法,怎麼去求數學問題的最優化解」

正規方程或梯度下降

實現統計學習方法的步驟如下:

(1)得到乙個有限的訓練資料集合;

(2)確定包含所有可能的模型的假設空間,即學習模型的集合;

(3)確定模型選取的準則,即學習的策略;

(4)實現求解最優模型的演算法,即學習的演算法;

(5)通過學習方法選取最優模型;

(6)利用學習的最優模型對新資料進行**分析。

評估:訓練誤差和測試誤差

選擇:正則化和交叉驗證(簡單交叉驗證【訓:測=7:3】,s折交叉驗證【切分為s個互不相交子集,用s-1訓練剩下的測試;將這一過程對可能的s中選擇重複進行;選出平均測試誤差最小的模型】,留一交叉驗證(s=n;資料缺乏使用))或簡單分為訓練集(訓練模型),驗證集(模型選擇)和測試集(模型評估)

生成方法:由資料學習聯合概率分布p(x,y),然後求條件概率分布p(y|x)作為**的模型,即生成模型;典型的有:樸素貝葉斯法和隱馬爾可夫模型。

特點:(1)還原出聯合概率分布(2)學習收斂速度更快,即當樣本數量增加時,學習到的模型可以更快的收斂於真實模型(3)當存在隱變數時,仍可以使用生成方法學習。

判別方法:由資料直接學習決策函式f(x)或條件概率分布p(y|x)作為**的模型,即判別模型。

特點:(1)直接學習條件概率或決策函式,直接面對**,往往準確率更高(2)可以對資料進行各種程度的抽象、定義特徵並使用特徵,簡化學習問題。

3.1 分類問題

在監督學習中,當輸出變數y取有限個離散值時,x可以是離散也可以是連續的,**問題便成為分類問題,本書主要討論二分類問題。

評價分類器效能的指標一般是分類準確率。

為了解決正負樣本不平衡問題,引入精確率與召回率。

「tp-將正類**為正類數;fn-將正類**為負類數;fp-將負類**為正類數;tn-將負類**為負類數」

精確率定義為:p=tp/(tp+fp)召回率定義為:p=tp/(tp+fn)

但兩個指標不好選模型,因此引入f1指標

f1=2pr/(p+r)

3.2 標註問題

「標註問題的輸入是乙個觀測序列,輸出是乙個標記序列或狀態序列。標註問題的目的在於學習乙個模型,使它能夠對觀測序列給出標記序列作為**」

標註問題常用的統計學習方法有:隱馬爾可夫模型、條件隨機場

例項:1.自然語言處理中的詞性標註:給定乙個由單詞組成的句子,對這個句子中的每乙個單詞進行詞性標註,即對乙個單詞序列**其對應的詞性標記序列。(單詞序列->詞性標記序列)

3.3 回歸問題

(函式擬合)選擇一條函式曲線使其很好的擬合已知資料且很好地**未知資料。

最常用的損失函式是平方損失函式,此時可用最小二乘法($\theta=(x^t*x)^*x^t*y$)或梯度下降法求解。

李航統計學習方法筆記1 統計學習方法概論

模型 由輸入到輸出的對映 假設空間 由輸入空間到輸出空間的對映多集合 模型 由條件概率分布p y x 或決策函式y f x 表示 損失函式 度量模型一次 的好壞,用乙個損失函式來度量 錯誤的程度 風險函式 度量平局意義下模型 的好壞 經驗風險 模型f x關於訓練資料集的平均損失 當模型上條件概率分布...

李航 統計學習方法 學習筆記 1 統計學習方法概論

1.4 模型評估與模型選擇 1.5 其他.考研終於告一段落,接下來是安心等待入學。想利用這段時間系統學習一下機器學習基礎,簡單記錄一下自己的學習過程,也算是對自己的一種監督。下面詳細介紹一下 策略 首先引入損失函式與風險函式的概念。損失函式度量模型一次 的好壞,風險函式度量平均意義下模型 的好壞。統...

統計學習方法概論 《統計學習方法》李航著

統計學習由 監督學習,非監督學習,半監督學習和強化學習組成。監督學習方法主要包括 分類 標註 與 回歸問題 回歸問題 輸入變數 和 輸出變數 均為連續變數的 問題 分類問題 輸出變數為有限個離散變數的 問題 標註問題 輸入與輸出變數均為變數序列的 問題 統計學習三要素 模型,策略,演算法 損失函式度...