統計學習概論 筆記

2022-09-06 02:54:10 字數 1048 閱讀 9161

統計學習三要素: 模型、策略、演算法

統計學習關於資料的基本假設是同類資料具有一定的統計規律,這是統計學習的前提。

統計學習方法的一般步驟:

1)得到乙個有限的訓練資料集合;

2)確定包含所有可能的模型的假設空間,即學習模型的集合;

3)確定模型選擇的準則,即學習的策略;

4)實現求解最優模型的演算法,即學習的演算法;

5)通過學習方法選擇最優模型;

6)利用學習的最優模型對新資料進行**或分析。

損失函式:

1)0-1損失函式

2)平方損失函式

3)絕對損失函式

4)對數損失函式

期望風險是模型關於聯合分布的期望損失,經驗風險是模型關於訓練樣本集的平均損失。根據大數定律,當樣本容量趨於無窮時,經驗風險趨於期望風險。

結構風險在經驗風險上加上表示模型複雜度的正則化項或罰項。結構風險最小化(srm)可以有效防止過擬合。

生成方法由資料學習聯合概率分布,然後求出條件概率分布作為**的模型,即生成模型。典型的生成模型有:樸素貝葉斯法和隱馬爾可夫模型。

判別方法由資料直接學習決策函式或者條件概率分布作為**的模型,即判別模型。典型的判別模型包括:k近鄰法、感知機、決策樹、邏輯斯諦回歸模型、最大熵模型、支援向量機模型、提公升方法和條件隨機場等。

生成方法的特點:生成方法可以還原出聯合概率分布,而判別方法則不能;生成方法的學習收斂速度更快,即當樣本容量增加的時候,學到的模型可以更快地收斂於真實模型;當存在隱變數時,仍可以用生成方法學習,此時判別方法就不能用。

判別方法的特點:判別方法直接學習的是條件概率或決策函式,直接面對**,往往學習的準確率更高;由於直接學習條件概率或決策函式,可以對資料進行各種程度上的抽象、定義特徵並使用特徵,因此可以簡化學習問題。

分類問題評價指標:

**為正

**為負

正類tp

fn負類

fptn

精確率定義為:  p = tp/(tp+fp)

召回率定義為:  r = tp/(tp+fn)

精確率和召回率的調和平均——f1值:  2/f1=1/p+1/r

統計學習概論

統計學習 statistical learning 關於計算機基於資料構建概率統計模型並運用模型對資料進行 與分析的一門學科。統計學習也稱為統計機器學習。學習的定義 如果乙個系統能夠能夠執行某個過程改進它的效能,這就是學習。按照這一觀點,統計學習就是計算機系統通過運用資料及統計方法提高系統效能的機器...

統計學習概論

統計學習 statistical learning 關於計算機基於資料構建概率統計模型並運用模型對資料進行 與分析的一門學科。統計學習也稱為統計機器學習。學習的定義 如果乙個系統能夠能夠執行某個過程改進它的效能,這就是學習。按照這一觀點,統計學習就是計算機系統通過運用資料及統計方法提高系統效能的機器...

統計學習概論

統計學習 statistical learning 關於計算機基於資料構建概率統計模型並運用模型對資料進行 與分析的一門學科。統計學習也稱為統計機器學習。學習的定義 如果乙個系統能夠能夠執行某個過程改進它的效能,這就是學習。按照這一觀點,統計學習就是計算機系統通過運用資料及統計方法提高系統效能的機器...