統計學習由 監督學習,非監督學習,半監督學習和強化學習組成。
監督學習方法主要包括 分類、標註 與 回歸問題
回歸問題:輸入變數 和 輸出變數 均為連續變數的**問題
分類問題:輸出變數為有限個離散變數的**問題
標註問題:輸入與輸出變數均為變數序列的**問題
統計學習三要素:模型,策略,演算法
損失函式度量模型一次**的好壞
風險模型度量平均意義下模型**好壞
泛化誤差反應了學習方法的泛化能力
泛化能力是有該方法學到的學習到的模型對位置資料的**能力
泛化誤差就是對學習到的模型的期望風險
泛化誤差上界的性質:
(1)它是樣本容量的函式,樣本容量增加,泛化上界趨向於0
(2)它是假設空間容量的函式,假設空間越容量大,模型越南學,泛化誤差上界就越大。
監督學習方法可以分為生成方法和判別方法,所學到的模型分別稱為生成模型和判別模型
生成方法的特點:
(1)可以還原聯合概率分布p(x,y)
(2)學習收斂速度快
判別方法的特點:
(1)直接學習的是條件概率p(y|x)或決策函式f(x),直接面對**,準確率更高
(2)可以對資料進行各種程度的抽象、定義特徵並使用特徵,因此可以簡化學習問題
分類 是監督學習的乙個核心問題
評價分類器效能的一般指標是 分類精確率
二類分類問題常用的評價指標是精確率和召回率,分類器在測試資料集上的**或正確或不正確,4種情況出現的總數分別記作
tp------將正類**為正類數
fn------將正類**為負類數
fp------將負類**為正類數
tn------將負類**為負類數
精確率定義:p = (tp
tp+f
p)
\left(\frac\right)
(tp+fp
tp)
召回率定義:r = (tp
tp+f
n)
\left(\frac\right)
(tp+fn
tp)
f1是精確率和召回率的調和均值
( 2f
1)
\left(\frac\right)
(f12)
= (1p)
\left(\frac\right)
(p1
) + (1r
)\left(\frac\right)
(r1
)f1 = (2t
p2tp
+fp+
fn
)\left(\frac\right)
(2tp+f
p+fn
2tp
)標註常用的統計學習方法有:隱馬爾科夫模型,條件隨機場
回歸模型是表示從輸入變數到輸出變數之間對映的函式
回歸問題的學習等價於函式擬合
回歸問題分為學習和**兩個過程。
回歸學習最常用的損失函式是平方損失函式,在此情況下,回歸問題可以由著名的最小二乘法求解
統計學方法:k近鄰法、感知機、樸素貝葉斯法、決策樹、邏輯斯蒂回歸與最大熵模型、支援向量機、提公升方法、em演算法、隱馬爾可夫模型、條件隨機場。
統計學習方法 1 統計學習方法概論
統計學習的主要特點是 1 統計學習以計算機及網路為平台,是建立在計算機及網路之上的 2 統計學習以資料為研究物件,是資料驅動的學科 3 統計學習的目的是對資料進行 與分析 4 統計學習以方法為中心,統計學習方法構建模型並應用模型進行 與分析 5 統計學習是概率論 統計學 資訊理論 計算理論 最優化理...
李航統計學習方法筆記1 統計學習方法概論
模型 由輸入到輸出的對映 假設空間 由輸入空間到輸出空間的對映多集合 模型 由條件概率分布p y x 或決策函式y f x 表示 損失函式 度量模型一次 的好壞,用乙個損失函式來度量 錯誤的程度 風險函式 度量平局意義下模型 的好壞 經驗風險 模型f x關於訓練資料集的平均損失 當模型上條件概率分布...
李航 統計學習方法 筆記 1 統計學習方法概論
統計學習由監督學習 非監督學習 半監督學習和強化學習等組成,本書主要討論監督學習。監督學習的任務是學習乙個模型,使模型能夠對任意給定的輸入,對其相應的輸出做出乙個好的 方法 模型 策略 演算法 在監督學習過程中,模型就是所要學習的條件概率分布或決策函式。策略即從假設空間中選取引數最優模型,模型的分類...