統計學習方法 第一章

2022-09-10 10:36:23 字數 2229 閱讀 1771

1.3 統計學習三要素

1.4 模型評估與模型選擇

1.5 正則化與交叉驗證

1.6 泛化能力

1.7 生成模型與判別模型

1.8 分類問題

1.9 標註問題

1.10 回歸問題

統計學習是關於計算機基於資料構建概率統計模型並運用模型對資料進行**與分析的一門學科,統計學習也稱為統計機器學習。

如果乙個系統能夠通過執行某個過程改進它的效能,這就是學習

統計學習的物件

統計學習的物件是資料。它從資料出發,提取資料特徵,抽象出資料的模型,發現資料中的知識,又回到資料的分析與**中去。

統計學習的目的

用於對資料進行**與分析,特別是對未知新資料進行**與分析。考慮學習什麼樣的模型和如何學習模型,以使模型能對資料進行準確的**與分析,同時也要考慮盡可能地提高學習效率。

統計學習的方法

基於資料構建統計模型從而對資料進行**與分析。統計學習由監督學習、非監督學習、半監督學習和強化學習等組成。

統計學習的研究

統計學習方法、統計學習理論及統計學習應用三個方面,

統計學習的重要性

統計學習包括監督學習、非監督學習及強化學習,重點討論監督學習

輸入空間、特徵空間與輸出空間

在監督學習中,將輸入與輸出所有可能取值的集合分別稱為輸入控制項與輸出空間。

每個具體的輸入是乙個例項,通常由特徵向量表示。

聯合概率分布

監督學習假設輸入與輸出的隨機變數x和y遵循聯合概率分布p(x,y). p(x,y)表示分布函式,或分布密度函式。

假設空間

監督學習的目的在於學習乙個由輸入到輸出的對映,這一對映由模型來表示。

監督學習利用訓練資料學習乙個模型,再用模型對測試樣本集進行**。由於在這個過程中需要訓練資料集,而訓練資料集往往是人工給出的,所以稱為監督學習, 監督學習分為學習和**兩個過程

方法 = 模型 + 策略 + 演算法

在監督學習過程中,模型就是所要學習的條件概率分布或決策函式。

統計學習的目標在於從假設空間中選取最優的模型

損失函式和風險函式

**值和真實值不一樣,得用乙個損失函式或代價函式來度量**錯誤的程度。

損失數值越小,模型就越好。由於模型的輸入、輸出是隨機變數,遵循聯合分布p(x,y)。學習的目標就是選擇期望風險最小的模型。

經驗風險最小化和結構風險最小化

演算法是指學習模型的具體計算方法,統計學習基於訓練資料集,根據學習策略,從假設空間中選擇最優模型,最後考慮用什麼樣的計算方法求解最優模型。

統計學習的目的是使學到的模型不僅對已知資料而且對未知資料都能有很好的**能力,不同的學習方法會給出不同的模型。

訓練誤差和測試誤差就自然稱為學習方法評估的標準。

當假設空間含有不同複雜度模型時,就要面臨模型選擇的問題。我們希望選擇或學習乙個合適的模型。

如果一味地追求訓練資料的**能力,所選的模型的複雜度則往往會比真模型更高,這就是過擬合,對於已知的資料**好,但是對於未知的資料**的很差。

模型選擇的典型方法就是正則化,正則化使結構風險最小化策略的實現,是經驗風險上加乙個正則化項或罰項。

如果樣本資料給的足夠充足,進行模型選擇的一種簡單方法是隨機地將資料集切成三部分,分為訓練集、驗證集和測試集。

簡單交叉驗證

s折交叉驗證

留一交叉驗證

由該方法學習到的模型對未知資料的**能力,使學習方法本質上重要的性質。

通過研究泛化誤差的概率上界進行的,具有以下性質

監督學習的任務就是學習乙個模型,應用這一模型,對給定的輸入**相應的輸出。

監督學習方法可以分為生成方法和判別方法。所學的模型分別稱為生成模型和判別模型

在監督學習中,當輸出變數y取有限個離散值時,**問題便成為分類問題,這是輸入變數x可以為離散也可以是連續的。

分類問題包括學習和分類兩個過程

標註時分類的乙個推廣,標註問題又是更複雜的結構**問題的簡單形式。

回歸用於**輸入變數和輸出變數之間的關係

統計學習方法 第一章

1.統計學習的特點 2.統計學習的物件 對資料的基本假設 同類資料具有一定的統計規律性 3.統計學習的目的 4.統計學習方法 1.基本概念 x x 1,x 2,x i x n t x i x i 1 x i 2 x in t t x 1 y 1 x 2 y 2 x n y n 2.聯合概率分布 3....

統計學習方法第一章

1.numpy.poly1d 1,2,3 import numpy as np np.poly1d 1 2,3 poly1d 1 2,3 r np.poly1d 1 2,3 print r 1 62.from scipy.optimize import leastsq 表示scipy.optimiz...

統計學習方法 第一章統計學習方法概論

1.統計學習的方法是基於資料構建統計模型從而對資料進行 與分析。統計學習由監督學習,非監督學習,半監督學習和強化學習等組成。2.輸入變數和輸出變數都是連續變數,稱為回歸問題 輸出變數為有限個離散變數的 問題為分類問題 輸入變數和輸出變數均為變數序列的 問題稱為標註問題。3.統計學習常用的損失函式 0...