學習方法的泛化能力是指由該方法學習到的模型對未知資料的**能力,是學習方法本質上的重要性質。現實中採用最多的就是通誤差來評價學習方法的泛化能力。公式表示為:
r (f
^)=e
p[l(
y,f^
(x))
]=∫x
xyl(
y,f^
(x))
p(x,
y)dx
dyr(\hat)=e_p[l(y,\hat(x))]=\int_l(y,\hat(x))p(x,y)dxdy
r(f^)
=ep
[l(y
,f^
(x))
]=∫x
xyl
(y,f
^(x
))p(
x,y)
dxdy
f
^\hat
f^表示學到的模型,泛化誤差越小表示泛化能力越強。
泛化能力往往通過研究泛化誤差的概率上界進行的,簡稱泛化誤差上界。其具有一下性質:
監督學習方法可以分為生成方法和判別方法,所學到的模型稱為生成模型和判別模型。
生成方法由資料學習聯合概率分布p(x
,y)p(x,y)
p(x,y)
,然後求出概率分布p(x
∣y)p(x|y)
p(x∣y)
,作為**模型,即生成模型:p(x
∣y)=
p(x,
y)p(
x)p(x|y)=\frac
p(x∣y)
=p(x
)p(x
,y)
。之所以稱為生成方法因為模型表示了給定輸入x產生輸出y的生成關係。典型的生成模型有樸素貝葉斯和隱馬爾可夫模型。
判別方法由資料直接學習策略函式f(x
)f(x)
f(x)
或者條件概率分布p(x
∣y)p(x|y)
p(x∣y)
作為**的模型,即判別模型。典型的判別模型包括:k近鄰法、感知機、決策樹、邏輯斯蒂回歸模型、最大熵模型、支援向量機、提公升方法和條件隨機場等。
生成方法的特點:
判別方法的特點:
監督學習主要應用於三方面:分類問題、標註問題和回歸問題。
分類是監督學習的乙個核心問題。監督學習中,當輸出變數y取有限個離散值時,**問題就變成了分類問題。對於x可離散也可連續。而分類模型就是所謂的分類器,分類器對新的輸入進行輸出**時,稱為分類。有二分類和多分類。
評價分類器效能的指標一般是分類準確率,而對於二分類問題常用的評價指標時精確率與召回率。
精確率為:
p =t
ptp+
fpp = \frac
p=tp+f
ptp
召回率為:
r =t
ptp+
fnr=\frac
r=tp+f
ntp
還有f
1f_1
f1值,是精確率和召回率的調和均值,即:
f 1=
2tp2
tp+f
p+fn
f_1=\frac
f1=2t
p+fp
+fn2
tp其中:
標註問題可以認為是分類問題的乙個推廣,也是結構**問題的簡單形式。標註問題的輸入是乙個觀測序列,而輸出是乙個標記序列或狀態序列。
標註問題分為學習和標註兩個過程。學習系統基於訓練資料集構建乙個模型,而標註系統按照學習得到的條件概率分布模型,對新的輸入觀測序列找到相應的輸出標記序列。
評價標註模型的指標與分類模型一樣,常用的有準確率、精確率和召回率。
標註常用的統計學習方法有隱馬爾可夫模型、條件隨機場
回歸用於**輸入變數(自變數)和輸出變數(因變數)之間的關係,故回歸問題的學習等價於數學擬合。
回歸問題分為學習和**兩個階段:
回顧問題按照輸入變數的個數分為一元回歸和多元回歸,而按照輸入變數和輸出變數之間關係的型別,分為線性回歸和非線性回歸
回歸學習最常用的損失函式是平方損失函式。
持續更新中……
第一章 統計學習及監督學習概論
統計學習是概率論 統計學 資訊理論 計算理論 最優化理論及電腦科學等多個領域的交叉學科 它從資料出發,提取出資料的特徵,抽象出資料的模型,發現資料中的知識,又回到對資料的分析與 中去。如果乙個系統能夠通過執行某個過程改進他的效能,這就是學習 herbert a.simon 監督學習 從標註資料中學習...
統計學習方法 第一章 統計學習及監督學習 筆記
本章講述監督學習方法。監督學習是從標註資料中學習模型的機器學習問題。統計學習 statistical learning 是關於計算機基於資料構建概率統計模型並運用模型對資料進行 與分析的一門學科。統計學習也稱為統計機器學習 statistical machine learning 主要特點 以計算機...
統計學習及監督學習概論(4)
統計學習方法 第二版 1.6 1.8 用學到的模型 hat f 對未知資料 的誤差即為泛化誤差 generalization error 泛化誤差反映了學習方法的泛化能力。事實上,泛化誤差就是所學習到的模型的期望風險。泛化誤差上界 generalization error bound 性質 是樣本容...