統計學習方法第一章筆記
赫爾伯特·西蒙曾經對學習下定義:「如果乙個系統能夠通過執行某個過程改進它的效能,這就是學習。」現在人們提到的機器學習就是統計機器學習。
統計學習包括監督學習(supervised learning)、非監督學習(unsupervisedlearning)、半監督學習(semi- supervised learning)和強化學習(reinforcement learning)。本書主要介紹監督學習。
基本概念
1. 輸入空間,特徵空間和輸出空間
2. 聯合概率分布
3. 假設空間
在學習的過程中,學習系統根據所給出的訓練資料集,通過學習得到乙個模型,表示為條件概率分布或者決策函式,來描述輸入到輸出的對映關係。
統計學習三要素
1. 模型(model)
2. 策略(strategy)
3. 演算法(algorithm)
求解最優化問題的演算法
梯度下降法,牛頓法
訓練誤差和測試誤差
訓練誤差是模型關於訓練數集的平均損失。測試誤差是模型關於測試數集的平均損失。
過擬合
在學習的過程中一味追求對訓練資料的**能力,使得對測試資料的**能力下降。降低模型複雜度。
正則化和交叉驗證
正則化項可以是模型向量引數的範數。模型引數向量的l0範數、l1範數、l2範數、跡範數。
範數規則化l0、
l1與l2範數描述的很精彩。
來自簡單交叉驗證
s折交叉驗證
留一交叉驗證
泛化能力
該方法學習到的模型對未知資料的**能力
生成模型與判別模型
生成模型表示了給定輸入x產生輸出y的生成關係。典型生成模型有:樸素貝葉斯和隱馬爾科夫鏈。
判別問題關心的是給定乙個輸入x,**出什麼樣的輸出y。
輸入變數x
輸出變數y
分類問題
離散或連續
有限個離散變數
標註問題
變數序列
變數序列
回歸問題
連續變數
連續變數
統計學習方法 第一章統計學習方法概論
1.統計學習的方法是基於資料構建統計模型從而對資料進行 與分析。統計學習由監督學習,非監督學習,半監督學習和強化學習等組成。2.輸入變數和輸出變數都是連續變數,稱為回歸問題 輸出變數為有限個離散變數的 問題為分類問題 輸入變數和輸出變數均為變數序列的 問題稱為標註問題。3.統計學習常用的損失函式 0...
統計學習方法 第一章
1.統計學習的特點 2.統計學習的物件 對資料的基本假設 同類資料具有一定的統計規律性 3.統計學習的目的 4.統計學習方法 1.基本概念 x x 1,x 2,x i x n t x i x i 1 x i 2 x in t t x 1 y 1 x 2 y 2 x n y n 2.聯合概率分布 3....
統計學習方法第一章
1.numpy.poly1d 1,2,3 import numpy as np np.poly1d 1 2,3 poly1d 1 2,3 r np.poly1d 1 2,3 print r 1 62.from scipy.optimize import leastsq 表示scipy.optimiz...