讀統計學習方法 1 2 1 3節

2021-09-12 11:55:53 字數 1922 閱讀 4282

監督學習的任務:學習乙個模型,使模型能夠對任意給定的輸入,對其相應的輸出做出乙個好的**。

基本概念:

1.輸入空間、特徵空間與輸出空間

輸入與輸出空間:輸入與輸出所有可能取值的集合。

輸入與輸出空間:可以是有限元素的集合,也可以是整個歐式空間。它們可以是同乙個也可以是不同的空間。

輸出空間遠遠小於輸入空間。

每個具體的輸入是乙個例項,通常由特徵向量表示。所有特徵向量存在的空間稱為特徵空間。模型實際上都是定義在特徵空間上的。

輸入例項x的特徵向量:

輸入變數與輸出變數均為連續變數的**問題稱為回歸問題;

輸出變數為有限個離散變數的**問題稱為分類問題

輸入變數與輸出變數均為變數序列的**問題稱為標註問題

2.聯合概率分布

統計學習假設資料存在一定的統計規律,x和y具有聯合概率分布的假設就是監督學習關於資料的基本假設。

3.假設空間

監督學習的目的在於:學習乙個輸入到輸出的對映。這一對映由模型來表示。

假設空間:模型屬於由輸入空間到輸出空間對映的集合。假設空間的確定意味著學習範圍的確定。

監督學習的模型可以是概率模型或非概率模型。

問題的形式化:

監督學習分為學習和**兩個過程。

統計學習三要素:

方法=模型+策略+演算法

模型有兩種形式,一種是概率模型(條件概率分布p(y|x)),另一種形式是非概率模型(決策函式y = f(x))

策略:

損失函式度量模型一次**的好壞,風險函式度量平均意義下模型**的好壞。

用乙個損失函式或代價函式來度量**錯誤的程度。

損失函式的期望:

被稱為風險函式或期望損失。其中p(x,y)為輸入輸出隨機變數x,y的聯合概率分布。

根據大數定律,當n趨近於無窮大的時候,經驗風險函式就趨近於風險函式。

經驗風險最小化:

經驗風險最小化的乙個例子:極大似然估計。

當模型是條件概率分布,損失函式是對數損失函式時,經驗風險最小化=極大似然估計。

**結構風險最小化:**是為了防止過擬合而提出來的策略。結構風險最小化等於正則化。

結構風險最小化的乙個例子:貝葉斯估計中的最大後驗概率估計。

當模型是條件概率分布、損失函式是對數損失函式,模型複雜度由模型的先驗概率表示時,結構風險最小化=最大後驗概率估計。

最優模型,就是求解最優化問題:

演算法:

學習模型的具體計算方法。統計學習的演算法成為求解最優化問題的演算法。

統計學習方法 1 統計學習方法概論

統計學習的主要特點是 1 統計學習以計算機及網路為平台,是建立在計算機及網路之上的 2 統計學習以資料為研究物件,是資料驅動的學科 3 統計學習的目的是對資料進行 與分析 4 統計學習以方法為中心,統計學習方法構建模型並應用模型進行 與分析 5 統計學習是概率論 統計學 資訊理論 計算理論 最優化理...

統計學習方法

這兩天翻了一下這本書,做個筆記,方便下次細看。本書主要講解統計學習中用到的監督學習。介紹了一些模型機器演算法。當參考書不錯,不怎麼適合死磕。第一章 主要介紹機器學習,統計學習的基本步驟,以及常用的表示方法。寫的比較系統,對於這個比較不熟悉的,可以好好看看。因為常用的模型就是這樣表示的,懂了這個看公式...

統計學習方法

第一章 方法概述 統計學習方法三要素 模型,策略,演算法 監督學習的重要問題 分類問題 classification 應用 銀行構建客戶分類模型,網路安全利用日誌資料對入侵檢測,影象處理檢測影象中是否有人臉,手寫識別識別分類手寫數字,網際網路搜尋網頁分類 二類分類評價指標 精確度,召回率,f1值 標...