李航統計學習方法筆記1 統計學習方法概論

2021-06-29 03:49:07 字數 2278 閱讀 5880

模型:由輸入到輸出的對映

假設空間:由輸入空間到輸出空間的對映多集合

模型:由條件概率分布p(y|x)或決策函式y=f(x)表示

損失函式:度量模型一次**的好壞,用乙個損失函式來度量**錯誤的程度

風險函式:度量平局意義下模型**的好壞

經驗風險:模型f(x關於訓練資料集的平均損失

當模型上條件概率分布,損失函式是對數損失函式時,經驗風險最小化就等價於極大似然估計。

當樣本容量小時,經驗風險最小化會產生過擬合現象。

結構風險在經驗風險上加傷表示模型複雜度的正則化項

當損失函式給定時,基於損失函式的模型的訓練誤差和模型的測試誤差就自然成為學習方法評估的標準。

訓練誤差是模型y=f(x)關於訓練資料集的平均損失:

下圖給出了m=0,m=1,m=3,m=9時的多項式函式擬合的情況,其中綠色曲線為真模型,紅色為**模型。

其中,m=0和m=1模型簡單,擬合不足,訓練誤差較大;m=9模型複雜,過擬合,訓練誤差為0,但基本不具備推廣性;m=3模型複雜度適中,泛化能力強,效果最好。

下圖描述了訓練誤差和測試誤差與模型的複雜度之間的關係:

當模型的複雜度增大時,訓練誤差會逐漸減小並趨向於0,而測試誤差會先減少,達到最小值後又增大。模型選擇的典型方法是正則化與交叉驗證。

模型選擇的典型方法是正則化,正則化的一般形式如下:

其中,第一項是經驗風險,第二項是正則化項,正則化項可以取不同的形式,例如,正則化項可以是模型引數向量的範數。回歸問題中,損失函式是平方損失,正則化項可以是引數向量的l2範數:

正則化項也可以是引數向量的l1範數:

經驗風險較小的模型可能較複雜,這時正則化項的值會較大,正則化的作用是選擇經驗風險與模型複雜度同時較小的模型。

正則化符合奧卡姆剃刀原理,在所有可能的模型中,能夠很好的解釋已知資料並且十分簡單的模型才是最好的模型。從貝葉斯估計的角度來看,正則化項對應於模型的先驗概率,可以假設複雜的模型有較小的先驗概率,簡單的模型有較大的先驗概率。

模型選擇的另一種方法是交叉驗證,使用交叉驗證的前提是資料不充足,常見的有簡單交叉驗證、s折交叉驗證和留一交叉驗證。如果資料充足,選擇模型的一種簡單方法是隨機的將資料集分成三部分,分別為訓練集、驗證集和測試集,訓練集用來訓練模型,驗證集用於模型的選擇,而測試集用於最終對學習方法的評估。如果資料不充足,可以採用交叉驗證的方法來選擇模型。

前面提到過,輸入變數和輸出變數均為連續變數的**問題稱為回歸問題;輸出變數為有限個離散變數的**問題稱為分類問題;輸入變數與輸出變數均為變數序列的**問題稱為標註問題。

對於二分類問題,常用的評價指標是精確率和召回率。通常以關注的類為正類,其他類為負類,分類器在測試資料集上的**或正確或不正確,4中情況出現的總數分別記為:

tp——將正類**為正類數;

fn——將正類**為負類數;

fp——將負類**為正類數;

tn——將負類**為負類數。

則,精確率定義為:

許多統計方法可以用於分類,包括k近鄰法、感知機、樸素貝葉斯法、決策樹、決策列表、邏輯斯諦回歸模型、支援向量機、提公升方法、貝葉斯網路、神經網路、winnow等。

標註問題的輸入是乙個觀測序列,輸出是乙個標記序列。標註問題在資訊抽取、自然語言處理等領域被廣泛採用。例如,自然語言處理中的詞性標註就是乙個典型的標註問題:給定乙個由單詞組成的句子,對這個句子中的每乙個單詞進行詞性標註,即對乙個單詞序列**其對應的詞性標記序列。標註常用的統計學習方法有:隱馬爾科夫模型、條件隨機場。

回歸問題的學習等價於函式擬合:選擇一條函式曲線使其很好的擬合已知資料且很好地**未知資料。回歸問題按照輸入變數的個數分為一元回歸和多元回歸,按照輸入變數和輸出變數之間的關係的型別即模型的型別,分為線性回歸和非線性回歸。回歸學習最常用的損失函式時平方損失函式,在此情況下,回歸問題可以用著名的最小二乘法求解。

李航 統計學習方法 筆記 1 統計學習方法概論

統計學習由監督學習 非監督學習 半監督學習和強化學習等組成,本書主要討論監督學習。監督學習的任務是學習乙個模型,使模型能夠對任意給定的輸入,對其相應的輸出做出乙個好的 方法 模型 策略 演算法 在監督學習過程中,模型就是所要學習的條件概率分布或決策函式。策略即從假設空間中選取引數最優模型,模型的分類...

李航 統計學習方法 學習筆記 1 統計學習方法概論

1.4 模型評估與模型選擇 1.5 其他.考研終於告一段落,接下來是安心等待入學。想利用這段時間系統學習一下機器學習基礎,簡單記錄一下自己的學習過程,也算是對自己的一種監督。下面詳細介紹一下 策略 首先引入損失函式與風險函式的概念。損失函式度量模型一次 的好壞,風險函式度量平均意義下模型 的好壞。統...

統計學習方法概論 《統計學習方法》李航著

統計學習由 監督學習,非監督學習,半監督學習和強化學習組成。監督學習方法主要包括 分類 標註 與 回歸問題 回歸問題 輸入變數 和 輸出變數 均為連續變數的 問題 分類問題 輸出變數為有限個離散變數的 問題 標註問題 輸入與輸出變數均為變數序列的 問題 統計學習三要素 模型,策略,演算法 損失函式度...