統計學習是關於計算機給予資料構建概率統計模型並運用模型對資料進行**和分析的一門學科,也稱之為統計機器學習。
統計學習的主要特點:
1.建立在計算機和網路之上的。
2.資料驅動。
3.目的是對資料進行**和分析。
4.以統計學習方法為中心,運用方法構建模型並對資料進行分析和**。
5.交叉學科,並逐漸自成體系與方**。
統計學習三要素:模型、策略、演算法。
實現統計學習方法的步驟:
1.得到乙個有限的資料集合。
2.確定可能運用到的所有模型。
3.根據實際情況確定選擇模型的策略。
4.實現求解最優模型的演算法。
5.通過學習方法選擇最優模型。
每乙個具體的輸入是乙個例項,通常由特徵向量構成。
所有特徵向量存在的空間稱為特徵空間。
輸入與輸出對稱為樣本。
由輸入空間到輸出空間的集合稱為假設空間,假設空間的確定意味著學習範圍的確定。
統計學習方法=模型+策略+演算法
損失函式度量模型一次**的好壞。
風險函式度量平均意義下模型**的好壞。
常用的損失函式:
1.0-1損失函式 l(
y,f(
x))=
f
=時,對任意乙個函式f∈
f f∈f
,至少以概率1−
δ 1−δ
,以下不等式成立: r(
f)≤r
ˆ(f)
+ε(d
,n,δ
) r(f
)≤r^
(f)+
ε(d,
n,δ)
其中,ε(
d,n,
δ)=1
2n(logd+
log1δ)
−−−−
−−−−
−−−−
−−√ ε(d
,n,δ
)=12
n(
logd+
log1δ
)不等式左端是泛化誤差,右端是泛化誤差上界,在泛化誤差中,第一項為訓練誤差,第二項是n的單調遞減函式,假設空間包含的函式越多,其值越大。
監督學習方法可以分為生成方法和判別方法,所學到的模型稱為生成模型和判別模型。
生成方法由資料學習聯合概率分布p(x,y),然後求出條件概率分布p(y|x)作為**的模型,即生成模型。
生成方法的特點:可以還原聯合概率分布,但是判別模型不能。收斂速度快。當存在隱變數時,還可以使用生成方法,但不能用判別方法。
典型的生成模型有:樸素貝葉斯法和隱馬爾可夫模型
判別方法由資料直接學習決策函式或者條件概率分布作為**的模型,即判別模型。
判別方法的特點:學習準確率更高。可以簡化學習問題。
典型的判別模型:k近鄰法、感知機、決策樹、邏輯斯蒂回歸模型、最大熵模型、支援向量機、提公升方法和條件隨機場。
tp——將正類**為正類數。
fn——將正類**為負類數。
fp——將負類**為正類數。
tn——將負類**為負類數。
精準率的定義: p=
tptp
+fp p=t
ptp+
fp
召回率定義: r=
tptp
+fn r=t
ptp+
fn
精準率和召回率的調和均值: 2f
1=1p
+1r 2f1
=1p+
1r
標註問題常用的方法:隱馬爾科夫模型、條件隨機場
回歸問題按輸入變數的個數,分為一元回歸和多元回歸。按模型型別分為線性回歸和非線性回歸。
回歸學習最常用的損失函式是平方損失函式,在此情況下,可以用最小二乘法求解。
統計學習方法筆記 第一章統計學習方法概論
統計學習方法第一章筆記 赫爾伯特 西蒙曾經對學習下定義 如果乙個系統能夠通過執行某個過程改進它的效能,這就是學習。現在人們提到的機器學習就是統計機器學習。統計學習包括監督學習 supervised learning 非監督學習 unsupervisedlearning 半監督學習 semi supe...
統計學習方法 第一章
1.統計學習的特點 2.統計學習的物件 對資料的基本假設 同類資料具有一定的統計規律性 3.統計學習的目的 4.統計學習方法 1.基本概念 x x 1,x 2,x i x n t x i x i 1 x i 2 x in t t x 1 y 1 x 2 y 2 x n y n 2.聯合概率分布 3....
統計學習方法第一章
1.numpy.poly1d 1,2,3 import numpy as np np.poly1d 1 2,3 poly1d 1 2,3 r np.poly1d 1 2,3 print r 1 62.from scipy.optimize import leastsq 表示scipy.optimiz...