《統計學習方法》學習筆記(1) 統計學習三要素

2021-08-20 19:47:31 字數 1862 閱讀 2900

目錄

1.1 統計學習

1.3 統計學習三要素——模型、策略、演算法

1.3.1 模型——所要學習的條件概率分布或決策函式

1.3.2 策略

1.3.2.1 損失函式(loss function)/ 代價函式(cost function)

1.3.2.2 風險函式(risk function)/ 期望損失(expected loss)

1.3.2.3 經驗風險(empirical risk)/ 經驗損失(empirical loss)

1.3.2.4 經驗風險最小化與結構風險最小化

1.3.3 演算法

統計學習包括:監督學習;非監督學習;半監督學習;強化學習。

監督學習需要利用訓練資料集,如果沒有訓練資料集,就不能採用監督學習的方法。

模型的假設空間包含所有可能的條件概率分布決策函式

損失函式:度量模型一次**的好壞

風險函式:度量平均意義下模型**的好壞

用於度量輸出的**值f(x)與真實值y之間的差距,常用的函式有:

0-1損失函式

平方損失函式

絕對損失函式

對數損失函式

損失函式值越小,模型越好。

損失函式的期望是:

被稱為風險函式或期望損失。其中p(x,y)為輸入輸出隨機變數x,y的聯合概率分布。

當n趨於無窮時,經驗風險趨於期望風險。

雖然當n趨於無窮時,經驗風險趨於期望風險,但現實中樣本的大小常常有限,因此用經驗風險對期望風險的預估常常不準確。所以常常需要對經驗風險進行校正,矯正的方法為經驗風險最小化與結構風險最小化。

1.3.2.4.1 經驗風險最小化

經驗風險最小化的策略認為,經驗風險最小的模型就是最佳模型。即求解最優化問題:

其中極大似然估計就是這個策略中的乙個例子(當模型是條件概率分布+損失函式是對數損失函式時,經驗風險最小化等價於極大似然估計)。

樣本容量小時,會產生過擬合現象。

1.3.2.4.2 結構風險最小化

是在經驗風險最小化的基礎上加上正則項。

j(f)表示的是模型的複雜度:模型f越複雜,j(f)越大。

結構風險小需要經驗風險和模型複雜度同時小,因此通常在訓練集和測試集身上都有較好的**。

先驗概率有正則化的作用。

確定了策略(經驗風險最小化or結構風險最小化)之後,監督學習問題就變為了最優化問題,演算法就是為了求解這個最優化問題。

統計學習方法 學習筆記(1)

統計學習方法的三要素 模型 策略和演算法,統計學習的物件是資料 方法 模型 策略 演算法。監督學習,也就是利用訓練資料學習乙個模型,在用這個模型對測試樣本進行 而由於訓練資料是由人為提供的,所以稱之為監督學習。1 模型 模型即是假設空間對應的條件概率或者是決策樹函式。2 策略 這裡引入了損失函式和風...

統計學習方法筆記1 統計學習方法概論

統計學習是關於計算機基於資料構建概率統計模型並運用模型對資料進行 與分析的一門學科。從資料出發,提取資料的特徵,抽象出資料的模型,發現資料中的知識,又回到對資料的分析與 中去。統計學習關於資料的基本假設是同類資料具有一定的統計規律性,這是統計學習的前提。這裡的同類資料是指具有某種共同性質的資料,例如...

《統計學習方法》學習筆記

最近把李航的 統計學習方法 看完了,感覺很不錯,從概論到各個統計方法,由易到難層層推進,每個方法都有詳盡的數學公式推倒,感覺很適合有一定數學功底的人作為機器學習入門來看。可惜本人自幼愚鈍,資質欠佳,以前學的概率論與數理統計的知識都忘得差不多了,看得雲裡霧裡的,前面還好,越到後面越看不明白,遇到不懂的...