這裡是我對這本書的總結
第一章1.1統計學習
統計學習是關於計算機基於資料構建概率統計模型並運用模型對資料進行**與分析的學科。
統計學習的特點 特點
1 平台
以計算機和網路為平台
2 研究物件
以資料為研究物件
3 目的
對資料進行**和分析
4 方法
構建模型並應用模型進行**與分析
5 學科基礎
屬於概率論,統計學,資訊理論,計算理論,最優化理論,電腦科學的交叉學科
實現統計學習方法的步驟:
(1)得到乙個有限的訓練資料集合
(2)確定包含所有可能的模型的假設空間,即學習模型的集合。
(3)確定模型選擇的準則,即學習的策略
(4)實現求解最優模型的演算法,即學習演算法
(5)通過學習方法選擇最優模型
(6)利用最優模型對新資料進行**或者分析
1.2統計學習分類
1.2.1 基本分類
1.監督學習
從標註資料中學習**模型的機器學習演算法。
(1)輸入空間、輸出空間、特徵空間
(2)聯合概率分布
(3)假設空間
(4)問題的形式化
2.無監督學習
從無標註資料中學習**模型的機器學習問題
3.強化學習
智慧型系統在與環境的連續互動中學習最優行動策略的機器學習問題。
4.半監督學習與主動學習
半監督學習
利用標註資料和未標註資料學習**模型的機器學習問題
主動學習
機器不斷主動給出例項讓教師進行標註,然後利用標註資料學習**模型的機器學習問題
1.2.2 模型分類
1.概率模型與非概率模型
概率模型 p(y|x)
非概率模型y=f(x)
在監督學習中概率模型是生成模型,非概率模型是判別模型。
2.線性模型與非線性模型
y=f(x)是線性函式,則為線性模型;是非線性函式,則為非線性模型。
3.引數化模型與非引數化模型
引數化模型:模型引數維度固定,模型可以由有限維引數完全刻畫。
非引數化模型: 假設模型引數的維度不固定或者說無窮大,隨著訓練資料量的不斷增加而不斷增大。
1.2.3 演算法分類
批量學習:一次接受所有資料,學習模型,之後進行**。
1.2.4 技巧分類
1.貝葉斯學習
2.核方法
1.3統計學習方法三要素
方法=模型+策略+演算法
1.3.1 模型
確定要學習的條件概率分布或者決策函式。
1.3.2 策略
1.損失函式和風險函式
(1)0-1損失函式
(2)平方損失函式
(3)絕對損失函式
(4)對數損失函式
2.經驗風險最小化和結構風險最小化
1.3.3演算法
學習模型的具體計算方法
1.4模型評估和模型選擇
1.4.1 訓練誤差與測試誤差
1.4.2 過擬合與模型選擇
1.5正則化與交叉驗證
1.5.1正則化
模型選擇的典型方法是正則化。正則化是結構風險最小化策略的實現,是在經驗風險上加乙個正則化項或者罰項。
1.5.2 交叉驗證
1.簡單交叉驗證
2.s折交叉驗證
3.留一交叉認證
1.6泛化能力
1.6.1 泛化誤差
1.6.2泛化誤差上界
1.7生成模型與判別模型
生成模型
判別模型
1.8監督學習應用
分類問題:輸出變數y取有限個離散值,**問題便成為分類問題。輸入變數x可以是離散的,也可以是連續的。
標註問題:輸入變數是乙個觀測序列,輸出是乙個標記序列或者狀態序列
回歸問題:**輸入變數和輸出變數之間的關係
統計學習及監督學習概論(4)
統計學習方法 第二版 1.6 1.8 用學到的模型 hat f 對未知資料 的誤差即為泛化誤差 generalization error 泛化誤差反映了學習方法的泛化能力。事實上,泛化誤差就是所學習到的模型的期望風險。泛化誤差上界 generalization error bound 性質 是樣本容...
統計學習及監督學習概論(3)
統計學習方法 第二版 1.4 1.5 當評估時使用的損失函式給定時,訓練誤差和測試誤差成為學習方法評估的標準。測試誤差反映了學習方法對未知的測試資料集的 能力 泛化能力 1 當選擇的模型複雜度過大時,過擬合現象就會發生。過擬合是指學習時選擇的模型所包含的引數過多,以至出現這一模型對已知資料 得很好,...
統計學習及監督學習概論(2)
統計學習方法 第二版 1.3 模型就是所要學習的條件概率分布或決策函式。損失函式和風險函式 損失函式度量模型一次 的好壞。風險函式度量平均意義下模型 的好壞。損失函式loss function 代價函式cost function 風險函式risk function r f e p l y,f x b...