1.統計學習
赫爾伯特·西蒙曾對學習給出以下定義:
如果乙個系統能夠通過執行某個過程改進它的效能,這就是學習。統計學習就是計算機系統通過運用資料及統計方法提高系統效能的機器學習。
2.統計學習三要素
3.實現統計學習方法的步驟
4.統計學習的分類
5.一些基本概念
6.損失函式
損失函式或代價函式用來度量模型一次**的好壞,常用的損失函式有如下幾種:
損失函式越小,模型就越好。
7.風險
學習的目標是選擇期望風險最小的模型。根據大數定律,當樣本容量n趨於無窮時,經驗風險趨於期望風險。
但實際中樣本數量有限,甚至很小。因此需要對經驗進行一定的矯正,這就關係到監督學習的兩個基本策略:經驗風險最小化和結構風險最小化。
8.正則化
正則化是結構風險最小化策略的實現,是在經驗風險上加乙個正則化會罰項。正則化項一般是模型複雜度的單調遞增函式,模型越複雜,正則化值就越大。如,回歸問題中,損失函式是平方損失,正則化項的引數向量的l1和l2範數表示:
9.交叉驗證
交叉驗證是一種模型選擇方法,基本思想是重複的使用資料。
10.生成模型與判別模型
生成模型:
判別模型:
1. 統計學習方法 李航 著
《統計學習方法》學習筆記1 概論
統計學習的物件是資料。統計學習的方法 監督學習 非監督學習 半監督學習 強化學習。統計學習方法三要素 模型 策略 演算法。輸入空間與輸出空間 輸入與輸出可能的取值的集合。具體輸入通常由特徵向量表示。特徵向量存在的空間為特徵空間。模型定義在特徵空間上。監督學習的目的是學習乙個由輸入到輸出的對映,由模型...
統計學習方法筆記1 統計學習方法概論
統計學習是關於計算機基於資料構建概率統計模型並運用模型對資料進行 與分析的一門學科。從資料出發,提取資料的特徵,抽象出資料的模型,發現資料中的知識,又回到對資料的分析與 中去。統計學習關於資料的基本假設是同類資料具有一定的統計規律性,這是統計學習的前提。這裡的同類資料是指具有某種共同性質的資料,例如...
學習筆記 統計學習方法概論
這是對 統計學習方法 第一章的乙個總結,記錄一些基礎的概念 定義和術語,理清統計學習方法的各個方面,開始系統地學習這個領域。統計學習 statistical learning 是關於計算機基於資料構建概率統計模型,並運用模型對資料進行 與分析的一門學科。統計學習也稱為統計機器學習。統計學習用於對資料...