第一章 統計學習方法概論

2021-09-29 04:15:21 字數 1845 閱讀 7224

統計學習方法是基於資料構建統計模型從而對資料進行**和分析、統計學習方法由監督學習非監督學習、半監督學習和強化學習等組成。主要討論監督學習

統計學習方法步驟:

有限訓練集合

確定學習模型集合(模型選擇)

確定模型選擇準則(策略,損失函式確定)

實現求解最優化模型演算法(演算法,梯度下降演算法選擇)

最優化模型選擇

利用模型對資料進行**分析

統計學習的三要素:模型、策略和演算法監督學習:supervised learning的資料是有特徵(feature)和標籤(label)的。機器可以尋找到標籤和特徵之間的聯絡,當面對只有特徵而沒有標籤的資料時,可以判斷出標籤。

非監督學習:unsupervised learning的資料只有特徵(feature),沒有標籤(label)。

半監督學習:semi-supervised learning中使用的資料,有一部分是標記過的,而大部分是沒有標記的。因此和監督學習相比,半監督學習的成本較低,但是又能達到較高的準確度。

強化學習:強化學習也是使用未標記的資料,但是可以通過某種方法知道你是離正確答案越來越近還是越來越遠(即獎懲函式)。可以把獎懲函式想象成正確答案的乙個延遲的、稀疏的形式。在監督學習中,能直接得到每個輸入的對應的輸出。強化學習中,訓練一段時間後,你才能得到乙個延遲的反饋,並且只有一點提示說明你是離答案越來越遠還是越來越近。

模型、策略、演算法

模型就是要學習的條件分布和決策函式

策略學習準則,引入損失函式,損失函式越小模型越好

演算法,求解最優解

訓練誤差和測試誤差,測試誤差反映對未知資料集的**能力(泛化能力),是學習中的重要概念。

模型複雜度要與問題相當,否則會造成訓練誤差小,測試誤差大的現象。

正則化,正則化一般是模型複雜度的單調遞增函式,模型越複雜正則化值越大。

交叉驗證

簡單交叉驗證:劃分驗證集和訓練集

s折交叉驗證:切分s個資料集,s-1做訓練,1做測試。最終選s次中誤差最小的乙個

對未知資料的**能力,通過測試誤差驗證。

泛化誤差就是學習到的模型的期望風險。

經驗風險(訓練誤差)小於期望風險(測試誤差)

生成模型學習聯合概率分布

判別模型給輸入**輸出

準確率召回率

回歸問題與分類問題本質上都是要建立對映關係:

f(x)→y, x∈a,y∈b

回歸問題,其輸出空間b是乙個度量空間,即所謂「定量」。也就是說,回歸問題的輸出空間定義了乙個度量,去衡量輸出值與真實值之間的「誤差大小」。例如:**一瓶700毫公升的可樂的**(真實**為5元)為6元時,誤差為1;**其為7元時,誤差為2。這兩個**結果是不一樣的,是有度量定義來衡量這種「不一樣」的。(於是有了均方誤差這類誤差函式)。

分類問題,其輸出空間b不是度量空間,即所謂「定性」。也就是說,在分類問題中,只有分類「正確」與「錯誤」之分,至於錯誤時是將class 5分到class 6,還是class 7,並沒有區別,都是在error counter上+1。

在實際操作中,我們確實常常將回歸問題和分類問題互相轉化(分類問題回歸化:邏輯回歸;回歸問題分類化:年齡**問題——>年齡段分類問題),但這都是為了處理實際問題時的方便之舉,背後損失的是數學上的嚴謹性。

統計學習方法 第一章統計學習方法概論

1.統計學習的方法是基於資料構建統計模型從而對資料進行 與分析。統計學習由監督學習,非監督學習,半監督學習和強化學習等組成。2.輸入變數和輸出變數都是連續變數,稱為回歸問題 輸出變數為有限個離散變數的 問題為分類問題 輸入變數和輸出變數均為變數序列的 問題稱為標註問題。3.統計學習常用的損失函式 0...

第一章 統計學習方法概論

統計學習的定義 研究物件和方法 監督學習 統計學習方法的三要素 模型 策略和演算法 模型選擇 生成模型與判別模型 應用 分類 標註和回歸 統計學習 statistical learning 是關於計算機基於資料構建概論統計模型並運用模型對資料進行 與分析的一門學科。統計學習也稱為統計機器學習 sta...

統計學習方法第一章概論

統計學習分類 監督學習 是指從標註資料中學習 模型的機器學習問題,標註資料表示輸入和輸出的對應關係,模型對給定的輸入產生相應的輸出。監督學習的本質就是學習輸入到輸出的對映規律。輸入空間 輸入的向量。例如x 特徵空間 輸入空間到特徵空間的對映,如x 2,x 3等 輸出變數為連續變數的為回歸問題,輸出變...