腦圖檢視效果更好
包括監督學習、非監督學習、半監督學習、強化學習等(1)有限訓練資料集
(2)學習模型集合(所有可能模型的假設空間)
(3)確定學習策略–模型選擇準則
(4)學習演算法–求解最優模型
(5)使用模型對資料進行**或分析概率模型:由條件概率分布p(x, y)表示
非概率模型:由決策函式y = f(x)表示假設空間 定義為決策函式集合
x y 是輸入輸出空間的變數損失函式和風險函式
0-1損失函式
平方損失函式
絕對損失函式
對數損失函式(對數似然損失函式)
損失函式的期望–稱為風險函式或期望損失
經驗風險
結構風險 = 經驗風險+正則化項(罰項)
最優化經驗風險最小化–過擬合–例子:極大似然估計:模型=條件概率分布,損失函式=對數損失函式
結構風險最小化=正則化求解最優化問題
存在顯示解析解:簡單易解決
不存在:數值計算方法求解,難點-全域性最優解,高效訓練誤差 = 經驗風險
測試誤差過擬合:模型複雜度過高,對已知資料**很好,對未知資料**很差
訓練誤差和測試誤差與模型複雜度關係結構風險最小化策略–經驗風險+正則化項
簡單交叉驗證 隨機切分兩份
s折交叉驗證
留一交叉驗證 s=n時的特殊情況使用學到的模型對為主資料**的誤差
是樣本容量的函式:樣本容量增加–泛化誤差上界趨於0
是假設空間容量的函式:假設空間越大–模型難學–泛化誤差上界越大生成方法學習而成
資料學習聯合概率分布p(x, y),求出條件概率分布p(y|x)作為**模型
例子: 樸素貝葉斯, 隱馬爾科夫模型
特點可以還原聯合概率分布
收斂速度快
存在隱變數仍可學習判別方法學習而成
直接學習決策函式或者條件概率函式作為**的模型
例子:knn, 感知機,決策樹,lr, 最大熵模型, svm, bagging和boosting,crf
特點準確率高
對資料抽象,定義特徵並使用,可以簡化學習問題tp-正類**為正類數
fn-正類**為負類數
fp-負類**為正類數
tn-正類**為負類數
精確率:**為正類數中**準確的比例
召回率:**準確數中**為正類的比例
f1值 精確率和召回率的調和均值常用
隱馬爾科夫鏈
crf常用:平方損失函式
求解:最小二乘法
統計學習基礎
過擬合是指訓練誤差和測試誤差之間的差距太大。就是模型複雜度高於實際問題,模型在訓練集上表現很好,但在測試集上卻表現很差。措施 1 增加資料集 2 加入正則化 3 進行特徵選擇 4 提前停止訓練,深度學習中常用dropout策略。欠擬合是指模型不能在訓練集上獲得足夠低的誤差。換句換說,就是模型複雜度低...
統計學習方法 統計學習基礎(一)
監督學習 統計學習的三要素 模型評估與模型選擇 一 統計學習的特點 以方法為中心 目標是對資料進行 與分析 統計學習的方法 可以總結出統計學習的三要素 模型 策略和演算法。監督學習的任務是學習乙個模型,使模型能夠對任意給定的輸入能做出乙個好的 基本概念 假設空間 模型屬於由輸入空間到輸出空間的對映的...
統計學 統計學基礎
五種抽樣方法 1 簡單隨機 選取熱量相同且每個樣本有同等概率被選擇的樣本 2 系統 簡單的系統抽取樣本 3 任意 使用乙個碰巧很容易被選擇的樣本 4 整群 先將總體分為不同組群,從中隨機挑選幾個組群作為樣本 5 分層 定義層級,在每個層級隨機抽取樣本。抽樣方法的選擇一定要符合 1 只有樣本對總體具有...