學習: 如果系統能夠通過某個過程改進它的效能, 這就是學習.
統計學習的物件: 資料
統計學習的基本假設: 同類資料具有一定的統計規律性
統計學習的方法:
統計學習方法的三要素
監督學習的任務: 從訓練資料(training data)集合中學習模型, 對測試資料進行**.
假設空間: 模型屬於由輸入空間到輸出空間的對映的集合, 這個集合即為假設空間. 假設空間的確定意味著學習範圍的確定.
方法 = 模型 + 策略 + 演算法
模型就是所要學習的條件概率分布或決策函式
統計學習的目標在於從假設空間中選取最優模型
損失函式
用於度量**錯誤的程度
常用的損失函式:
風險函式
經驗風險最小化 erm
結構風險最小化 srm
1.4.1 訓練誤差與測試誤差
1.4.2 過擬合與模型選擇
簡單交叉驗證
s折交叉驗證
留一交叉驗證
定理(d是假設空間函式的個數, n是樣本容量)
生成模型(生成方法)
學習聯合概率分布p(x,y), 然後求出條件概率分布p(y|x)作為**的模型, 即生成模型
判別模型(判別方法)
由資料直接學習決策函式或者條件概率分布
輸出變數y取有限個離散值
評價標準
tp—將正類**為正類數
fn—將正類**為負類數
fp—將負類**為正類數
tn—將負類**為負類數
精確率
召回率
常用方法
k鄰近, 感知機, 樸素貝葉斯, 決策樹, svm, 貝葉斯網路, 神經網路
輸入觀測序列, 輸出標記序列or狀態序列
常用方法
隱馬爾科夫, 條件隨機場
等價於函式擬合
常用的損失函式: 平方損失函式 —> 最小二乘法
統計學習方法 1 統計學習方法概論
統計學習的主要特點是 1 統計學習以計算機及網路為平台,是建立在計算機及網路之上的 2 統計學習以資料為研究物件,是資料驅動的學科 3 統計學習的目的是對資料進行 與分析 4 統計學習以方法為中心,統計學習方法構建模型並應用模型進行 與分析 5 統計學習是概率論 統計學 資訊理論 計算理論 最優化理...
統計學習方法概論
這篇文章是對李航 統計學習方法 第一章的乙個回顧,主要是希望對統計學習基本概念 方法做乙個濃縮的總結,希望能對像我一樣的初學者有所幫助。假如有某些地方講的不對的,可以指明,以期促進。統計學習概念 關於計算機基於資料構建概率統計模型並運用模型進行資料 與分析的一門科學。它以計算機及網路為平台,以資料為...
統計學習方法概論
本文是學習李航寫的 統計學習方法 一書第一章 統計學習方法概論 所做的乙個筆記,主要就是對第一章的總結。1.統計學習 統計學習是關於計算機基於資料構建概率統計模型並運用模型對資料進行 與分析的一門學科,統計學習也稱統計機器學習。由此可以看出統計學習的研究物件是資料,目的是對資料進行 與分析。同時,統...