最近讀李航博士的《統計學習方法》,獲益良多。開篇李博士著重於基本概念和整體體系的介紹,本文僅就我自己的理解將個人認為重要的內容記述如下。
1
、什麼是監督學習和非監督學習?
就感性認知而言,分類、回歸都是監督學習,聚類是非監督學習。
借用知乎上@王丰的回答,是否有監督(
supervised
),就看輸入資料是否有標籤(
label
)。輸入資料有標籤,則為有監督學習,沒標籤則為無監督學習。
2
、如何選擇監督學習的模型?
其實也就是我們如何從一組模型中挑選最優的那乙個。用奧卡姆剃刀原理來解釋會比較簡明:在所有能夠解釋已知資料的模型中,應當選擇相對簡單的那個模型。
如果做更加學術化的解釋,就需要先理解損失函式和風險函式的概念。損失函式度量模型一次**結果的好壞,可用
表示,常用的損失函式有
等;風險函式度量平均意義下**結果的好壞,可用
表示。
經驗風險最小化和結構風險最小化。一般情況下,風險函式中的
p(x,y)
未知,因此常用經驗風險度量**結果的好壞,公式如下。
結構風險公式如下。之所以用到結構風險,就是不僅要考慮模型對已知資料的**準確度,還要考慮模型的複雜度
j(f)
。實際應用中,我們不僅希望模型能夠解釋資料,還需要模型足夠簡單,在二者間尋求平衡。
3
、什麼是
「過擬合」?
上乙個問題中,為什麼不僅要模型能夠解釋已知資料,還需要模型足夠簡單呢?因為如果不夠簡單,就可能出現
「過擬合
」,也就是模型可能非常好的解釋了訓練集樣本,但對測試集樣本的**效果卻非常差。
「過擬合
」模型的維度一般高於實際模型。可以這樣來理解,假設有三個樣本點(
x1,y1
)、(x2,y2
)、(x3,y3
),實際模型為線性模型
y=ax+b
,當然**結果和真實值間有小幅偏差;此時如果用更高維度的模型
y=mx2+nx+h
進行擬合,**結果和真實值可以完全一致(三個點確定三個引數m、
n、h)。這時,如果再來乙個按照線性模型分布的點
(x4,y4)
,則線性模型能夠很好的**,而高維模型則由於「過擬合」無法正確**。
4
、如何避免
」過擬合」?
避免「
過擬合」
的方法主要有正則化和交叉驗證兩種方法。
正則化是問題
2中結構風險最小化的實現,由於存在正則化項(表徵模型複雜度),可以有效避免生成過於複雜的模型。正則化可以取不同形式,例如回歸問題中,損失函式是平方損失,正則化項是引數向量的二範數。
交叉驗證在實際中可能用得更多,其中最常用的又稱
k折交叉驗證。以
10折交叉驗證為例,每次訓練使用
90%的資料樣本,用剩餘的
10%樣本進行驗證並計算正確率;迴圈的將
10個樣本用作測試樣本,即可求得
10次交叉驗證的正確率均值,也就是
10折交叉驗證的正確率。一般選用交叉驗證正確率最高的模型。
5
、什麼是生成方法和判別方法?
所謂生成方法,是指根據聯合概率分布
p(x,y)
計算目標函式
y=f(x)
或者條件概率
p(y|x)
的模型,也就是先知道聯合概率分布,再建立目標模型;例如樸素貝葉斯法和隱馬爾科夫法。
所謂判別方法,是直接學習和計算目標函式
y=f(x)
或者條件概率
p(y|x)
的模型,簡化了學習問題。例如
k近鄰、決策樹、邏輯斯諦回歸、
svm等。
統計學習方法筆記1 統計學習方法概論
統計學習是關於計算機基於資料構建概率統計模型並運用模型對資料進行 與分析的一門學科。從資料出發,提取資料的特徵,抽象出資料的模型,發現資料中的知識,又回到對資料的分析與 中去。統計學習關於資料的基本假設是同類資料具有一定的統計規律性,這是統計學習的前提。這裡的同類資料是指具有某種共同性質的資料,例如...
統計學習方法筆記(1)
第一次閱讀李航的 統計學習方法概論 特此記錄一些重點知識以備複習。基本概念 1 統計學習方法三要素 模型 策略和演算法。2 假設空間 要學習的模型的集合稱為假設空間。3 本書主要介紹監督學習方法,主要包括用於分類 標註與回歸問題的方法。在自然語言處理 資訊檢索 文字資料探勘等領域有廣泛的應用。監督學...
統計學習方法筆記(1)
統計學習的過程 確定包含所有可能模型的假設空間 確定各個模型學習的策略 利用不同的演算法求解各個模型 進行模型評估和選擇 對各個模型進行評估,最終選擇最優模型 利用最優的模型對資料進行 或分析。例子 用 房屋 的例子更好理解這乙個過程。真實房價 y 與房屋面積 x1 房間數量 x2 等特徵有關。現在...