第1章 統計學習方法概論
統計學習是由監督學習(supervised learning)、非監督學習(unsupervised learning)、半監督學習(semi-supervised learning)和強化學習(reinforcement learning)組成。
監督學習的任務是學習乙個模型,是模型能夠對任意給定的輸入,對其相應的輸出做出乙個好的**。
在監督學習中,將輸入與輸入所有可能取值的集合稱為輸入空間與輸出空間。
每個具體的輸入是乙個例項,通常有特徵向量表示。所有特徵向量存在的空間稱為特徵空間,其每一維對應乙個特徵。
輸入例項x的特徵向量記作
監督學習從訓練資料集合中學習模型,對測試資料進行**。輸入輸出對又稱為樣本或樣本點。
監督學習假設輸入與輸出的隨機變數x和y遵循聯合概率分布p(x,y)。p(x,y)表示分布函式或分布密度函式。
監督學習的目的在於學習乙個由輸入到輸出的對映,這一對映由模型來表示。模型屬於由輸入空間到輸出空間的對映的集合,稱為假設空間。
由條件概率分布p(x|y)或決策函式y=f(x)表示。
統計學習三要素: 方法=模型+策略+演算法
3.1損失函式和風險函式:損失函式度量模型一次**的好壞,風險函式度量平均意義下模型**的好壞。
損失函式值越小,模型就越好,由於模型的輸入、輸出(x,y)是隨機變數,遵循聯合分布p(x,y),所以損失函式的期望是:
( 這個稱為風險函式或期望損失)
經驗損失(經驗風險):
學習的目標就是選擇期望風險最小的模型。但是一方面算期望風險需要用到聯合分布,另一方面聯合分布又是未知的,所以監督學習就成為乙個病態的問題。根據大數定理,當樣本容量n趨向於無窮是,我們的經驗風險趨向於期望風險。所以我們可以用經驗風險去估計期望風險。
由於現實中訓練樣本數有限,甚至很小,所以還要考慮到監督學習的兩個基本策略:經驗風險最小化和結構風險最小化
3.2經驗風險最小化和結構風險最小化
1.經驗風險最小化:
當樣本容量足夠大是,經驗風險最小化能保證有很好的學習效果,「極大似然估計」就是經驗風險最小化的乙個例子。但是,當樣本容量很小時,效果就未必很好。
2.結構風險最小化
本身就是為了防止過擬合而提出的策略,就是在經驗風險上加上了模型複雜懲罰函式,就是正則化項或罰項。
其中的j(f)為模型的複雜度。貝葉斯估計中的最大後驗概率估計就是結構風險最小化的乙個例子。
指學習時選擇的模型所包含的引數過多,以至於出現模型對已知資料**的很好,但對未知資料**的很差的現象。一般防止過擬合的方法:正則化與交叉驗證。
正則化項一般是模型複雜度的單調遞增函式,模型越複雜,正則化值就越大。正則化的作用是選擇經驗風險與模型複雜度同時較小的模型。
就是模型對未知資料的**能力。
分類是監督學習的乙個核心問題在監督學習中, 當輸出變數y 取有限個離散值時,**問題便成為分類問題這時,輸入變數x 可以是離散的,也可以是連續的.監督學習從資料中學習乙個分類模型或分類決策函式,稱為分類器(classifier) .
評價分類器效能的指標一般是分類準確率。
對於二分類問題常用的指標是——精確率和召回率。
tp一將正類**為正類數:
fn一一將正類**為負類數:
fp一一將負類**為正類數,
tn-一將負類**為負類數.
許多統計學習方法可以用於分類,包括k鄰近法、感知機、樸素貝葉斯法、決策樹、決策列表、邏輯斯特回歸模型、支援向量機、提公升方法、貝葉斯網路、神經網路等。分類的乙個典型應用的例子就是文字分類。
回歸是監督學習的另-個重要問題回歸用於**輸入變數(自變數)和輸出變數(因變數)之間的關係。回歸問題的學習等價於函式擬合·選擇一條函式曲線使其很好地擬合己知資料且很好地**未知資料。回歸問題按照輸入變數的個數,分為一元回歸和多元回歸;按照輸入變數和輸出變數之間的關係即模型的型別,分為線性回歸和非線性回歸。回歸學習最常用的損失函式是平方損失函式,在此情況下,回歸問題可以由著名的最小二乘法(least squares) 求解。
第1章 統計學習方法概論
學習 定義 如果乙個系統能夠通過執行某個過程改進他的效能,這就是學習。統計學習的物件 資料 目的 對資料進行 和分析 方法 監督學習 非監督學習 半監督學習 強化學習 統計學習的三要素 方法 模型 策略 演算法 輸入變數和輸出變數均為連續變數的 問題稱為回歸問題 輸出變數為有限個離散變數的 問題稱為...
統計學習方法筆記1 統計學習方法概論
統計學習是關於計算機基於資料構建概率統計模型並運用模型對資料進行 與分析的一門學科。從資料出發,提取資料的特徵,抽象出資料的模型,發現資料中的知識,又回到對資料的分析與 中去。統計學習關於資料的基本假設是同類資料具有一定的統計規律性,這是統計學習的前提。這裡的同類資料是指具有某種共同性質的資料,例如...
統計學習方法 1 統計學習方法概論
統計學習的主要特點是 1 統計學習以計算機及網路為平台,是建立在計算機及網路之上的 2 統計學習以資料為研究物件,是資料驅動的學科 3 統計學習的目的是對資料進行 與分析 4 統計學習以方法為中心,統計學習方法構建模型並應用模型進行 與分析 5 統計學習是概率論 統計學 資訊理論 計算理論 最優化理...