統計學習方法步驟:
得到乙個有限訓練資料集
確定包含所有可能的模型假設空間,即學習模型的集合
確定模型選擇的準則,即學習的策略
實現求解最優模型的演算法,即學習的方法
通過學習方法選擇最優模型
利用學習的最優模型對新資料進行**與分析
統計學習三要素:
模型 + 策略 + 演算法
有了模型的假設空間,統計學習接著需要考慮的是按照什麼樣的準則學習或選擇最優的模型,統計學習的目的在於從假設空間中選取最優模型。
下面引入損失函式和風險函式:
常用損失函式:
(1)0-1損失函式(0-1 loss function)
(2)平方損失函式 (quadratic loss function)
(3)絕對損失函式 (absolute loss function)
(4)對數損失函式(logarithmic loss function)或對數似然損失函式 (loglikehood loss function)
損失函式是該模型f(x) 關於聯合分布p(x,y)的平均意義下的損失,稱為風險損失或期望損失;
經驗風險(模型關於訓練資料集的平均損失):
總結:期望風險是模型關於聯合分布的期望損失,經驗風險是模型關於訓練樣本集的平均損失。根據大數定律,當樣本容量趨於無窮時,經驗風險趨於期望風險。所以我們可以用經驗風險去估計期望風險,因為我們並不知道聯合分布函式,但這限制於樣本的數目,當樣本數量過小的時候,此方法就不太可行了。
下面關於介紹模型的選擇:
一般我們都會基於訓練資料集,使用經驗風險最小化,在假設空間中,開始學習模型,選取損失函式,利用經驗風險最小化,從而得到引數的估計,也就是此模型;但這個模型是不是最優的,我們並不知道,我們還需要進行基於測試資料的**誤差是不是最小的進行判斷,此時再選取損失函式(但此時的損失函式未必就是之前的損失函式)。
如果我們為了一味追求提高訓練資料的**能力,所選的模型的複雜度往往會比真實模型的複雜度高很多,此就是過擬合;這對已知資料的**能力很好,但對未知資料的**能力極差。
基於經驗風險最小化,一般是基於大樣本進行的。
模型選擇的另一種典型方法是正則化(結構風險最小化);其作用是選擇經驗風險與模型複雜度同時較小的模型。適用於小樣本。
還有一種當資料小的時候,還可以選擇交叉驗證;也就是對資料集進行多次的切分,測試,選擇出平均測試誤差最小的模型。
泛化能力:
統計機器學習中關於泛化能力的介紹:
在機器學習方法中,泛化能力通俗來講就是指學習到的模型對未知資料的**能力。在實際情況中,我們通常通過測試誤差來評價學習方法的泛化能力。但這種評價是依賴於測試資料集的,因為測試資料集是有限的,很有可能由此得到的評價結果是不可靠的。統計學習理論試圖從理論上對學習方法的泛化能力進行分析。
學習方法的泛化能力分析往往是通過研究泛化誤差的概率上界進行的;簡稱泛化誤差上界。
關於泛化誤差上界的證明:
統計機器學習方法概論
統計機器學習 1 以資料 以離散資料為主 為研究物件,是資料驅動的學科。它從資料出發,提取資料的特徵,抽象出資料的模型,發現資料中的知識,又回到對資料的分析與 中去 關於資料的假設是 同類資料具有一定的統計規律性 這是統計學習的前提。2 目的是對資料進行 與分析 通過構建概率統計模型實現 3 以方法...
統計學習方法(機器學習) 1 統計學習方法概要
泛化能力 生成模型與判別模型 監督學習的三類問題 正則化是結構風險最小化策略的實現,是在經驗風險上加乙個正則化項或懲罰項。正則化項一般是模型複雜度的單調遞增函式,模型越複雜,正則化值越大。正則化的一般形式 這裡的第一項是經驗風險,第二項是正則化項。第一項經驗風險較小的模型可能比較複雜 有多個非0引數...
統計學習方法總結
十種主要的統計學習方法特點總結 適用問題 分類問題是從例項的特徵向量到類標記的 問題 標註問題是從觀測序列到標記序列 或狀態序列 的 問題。可以認為分類問題是標註問題的特殊情況。分類問題中可能的 結果是二類或多類 而標註問題中可能的 結果是所有的標記序列,其數目是指數級的。em演算法是含有隱變數的概...