統計學習及監督學習概論
1. 概念
假設空間:假設要學的模型屬於某個函式的集合,模型可以將輸入空間對映到輸出空間,這個集合稱為假設空間。需要從假設空間選取乙個最優的模型,使其在給定的評價準則下對已知資料有最優的**。
統計學習三要素:模型(模型的假設空間)、策略(評價模型)、演算法(模型的學習演算法)
輸入/輸出空間:在監督學習中,將輸入與輸出所有可能取值的集合分別稱為輸入空間、輸出空間。
特徵空間:每個具體的輸入是乙個例項,通常由特徵向量表示。所有特徵向量存在的空間為特徵空間。
數學表達:
**問題:
監督學習的模型可以是概率模型或非概率模型,由條件概率分布(p(
y∣x)
(p(y∣x)
(p(y∣x
)或決策函式y=f
(x
)y=f(x)
y=f(x)
表示泛化能力:學習方法對未知資料的**能力稱為泛化能力
過擬合:學習時的模型包含引數過多,對已知資料**的很好,對未知資料**差
2. 統計學習三要素
模型
監督學習中,模型就是要學習的條件概率分布或決策函式。模型的假設空間包含所有可能的條件概率分布或決策函式。
策略
策略是指按照什麼樣的準則學習或選擇最優的模型。
演算法
指學習模型的具體計算方法。當根據學習策略,選擇最有模型後,要考慮如何求解最優化問題。
3. 正則化與交叉驗證
交叉驗證:把原始資料切分為train data和test data.訓練資料再切分幾組,其中乙份為驗證集,其他幾份做訓練資料;再抽取另乙份做驗證集,剩下的做訓練資料;在訓練集上訓練不同的模型,在抽取的驗證集上驗證模型,比較這些驗證結果,選取效果好模型。
4. 泛化誤差上界
泛化誤差上界:泛化誤差概率的上界。
5. 生成模型/判別模型
判別方法:由資料直接學習決策函式f(x)或條件概率分布p(y|x)做**的模型。
6. 分類問題
統計學習方法 1 統計學習方法概論
統計學習的主要特點是 1 統計學習以計算機及網路為平台,是建立在計算機及網路之上的 2 統計學習以資料為研究物件,是資料驅動的學科 3 統計學習的目的是對資料進行 與分析 4 統計學習以方法為中心,統計學習方法構建模型並應用模型進行 與分析 5 統計學習是概率論 統計學 資訊理論 計算理論 最優化理...
統計學習方法筆記 01概述
統計學習是計算機運用資料及統計方法提高效能的機器學習 herbert a.simon.如果乙個系統能夠通過執行某個過程改進它的效能,這就是學習。物件是資料 從資料出發,提取資料特徵,抽象資料模型,發現資料知識,回到資料的分析與 中。前提假設 同類資料具有一定的統計規律性。比如用隨機變數來描述資料特徵...
統計學習方法
這兩天翻了一下這本書,做個筆記,方便下次細看。本書主要講解統計學習中用到的監督學習。介紹了一些模型機器演算法。當參考書不錯,不怎麼適合死磕。第一章 主要介紹機器學習,統計學習的基本步驟,以及常用的表示方法。寫的比較系統,對於這個比較不熟悉的,可以好好看看。因為常用的模型就是這樣表示的,懂了這個看公式...