統計學習方法 1 統計學習方法概論

2021-08-10 05:41:57 字數 2296 閱讀 7675

統計學習的主要特點是:

(1)統計學習以計算機及網路為平台,是建立在計算機及網路之上的;

(2)統計學習以資料為研究物件,是資料驅動的學科;

(3)統計學習的目的是對資料進行**與分析;

(4)統計學習以方法為中心,統計學習方法構建模型並應用模型進行**與分析;

(5)統計學習是概率論、統計學、資訊理論、計算理論、最優化理論及電腦科學等多個領域的交叉學科,並且在發展中逐步形成獨自的理論體系與方**。

統計學習的物件是資料(data)。它從資料出發,提取資料的特徵,抽象出資料的模型,發現資料中的知識,又回到對資料的分析與**中去。

統計學習用於對資料進行**與分析,特別是對未知新資料進行**與分析。

統計學習的方法是基於資料構建統計模型從而對資料進行**與分析。統計學習由監督學習(supervised learning)、非監督學習(unsupervised learning)、半監督學習(semi-supervised learning)和強化學習(reinforcement learning)等組成。

輸入空間、特徵空間與輸出空間

聯合概率分布

監督學習假設輸入與輸出的隨機變數x和y遵循聯合概率分布p(x,y)。

假設空間

方法=模型+策略+演算法

由決策函式表示的模型為非概率模型,由條件概率表示的模型為概率模型。

損失函式和風險函式

理論上模型f(x)關於聯合分布p(x,y)的平均意義下的損失,稱為風險函式(risk function)或期望損失(expected loss)。

模型f(x)關於訓練資料集的平均損失稱為經驗風險(empirical risk)或經驗損失(empirical loss),記作remp:

根據大數定律,當樣本容量n趨於無窮時,經驗風險remp(f)趨於期望風險rexp(f)。

經驗風險最小化與結構風險最小化

當模型是條件概率分布, 損失函式是對數損失函式時, 經驗風險朵小化就等價於極大似然估計

結構風險最小化(structural risk minimization, srm)是為了防止過擬合而提出來的策略結構風險最小化等價千正則化(regularization).

當模型是條件概率分布、 損失函式是對數損失函式、模型複雜度由模型的先驗概率表示時, 結構風險最小化就等價於最大後驗概率估計.

演算法指學習模型的具體計算方法。

最優化演算法,數值計算方法

測試誤差是模型y=

f(x)

關於測試資料集的平均損失:

測試誤差反映了學習方法對未知的測試資料集的**能力,

過擬合是指學習時選擇的模型所包含的引數過多, 以致於出現這一模型對已知資料**得很好, 但對未知資料預

測得很差的現象可以說模型選擇旨在避免過擬合併提高模型的**能力.

理論上對模型泛化能力的評估

典型的生成模型有:樸素貝葉斯法和隱馬爾可夫模型,

典型的判別模型包括: k近鄰法、 感知機、 決策樹、 邏輯斯諦回歸模型、 最大墒模型、 支援向量機、 提公升方法和條件隨機場等,

生成方法的特點:

生成方法可以還匝出聯合概率分布p(x,y), 而判別方法 則不能;生成方法的學習收斂速度更快, 即當樣本容最增加的時候, 學到的模型可以更快地收斂千真實模型;當存在隱變數時, 仍可以用生成方法學習, 此時判別方法就不能用

判別方法的特點: 判別方法直接學習的是條件概率p(y|x)或決策函式f(x), 直接面對**, 往往學習的準確率更高;由於直接學習p(y|x)或f(x), 可以對資料進行各種程度上的抽象、定義特徵並使用特徵, 因此可以簡化學習問題。

在監督學習中, 當輸出變數y取有限個離散值時, **問題便成為分類問題. 這時, 輸入變數x可以是離散的, 也可以是連續 的

分類問題包括學習和分類兩個過程。

許多統計學習方法可以用於分類,包括k近鄰法、 感知機、 樸素貝葉斯法、 決策樹、 決策列表、邏輯斯諦回歸模型、 支援向量機、 提公升方法、 貝葉斯網路、 神經網路、winnow等.

標註(tagging)也是乙個監督學習問題。標註問題的輸入是乙個觀測序列,輸出是乙個標記序列或狀態序列.標註問題的目標在於學習乙個模型,使它能夠對觀測序列給出標記序列作為**。

標註問題分為學習和標註兩個過程

標註常用的統計學習方法有· 隱馬爾可夫模型、 條件隨機場。

回歸用於預瀏輸入變數(自變數)和輸出變堡(因變數)之間的關係, 特別是當輸入變數的值發生變化時, 輸出變數的值隨之發生的變化.回歸模型正是表示從輸入變數到輸出變數之間對映的函式.

回歸問題分為學習和**兩個過程。

回歸問題按照輸入變數的個數,分為一元回歸和多元回歸;按照輸入變數和輸出變數之間關係的型別即模型的型別,分為線性回歸和非線性回歸.

統計學習方法筆記1 統計學習方法概論

統計學習是關於計算機基於資料構建概率統計模型並運用模型對資料進行 與分析的一門學科。從資料出發,提取資料的特徵,抽象出資料的模型,發現資料中的知識,又回到對資料的分析與 中去。統計學習關於資料的基本假設是同類資料具有一定的統計規律性,這是統計學習的前提。這裡的同類資料是指具有某種共同性質的資料,例如...

1 統計學習方法概論

定義 如果乙個系統能夠通過執行某個過程改進它的效能,這就是學習 物件 資料 data 從資料出發,提取資料的特徵,抽象出資料的模型,發現資料中的知識,最終回到對資料的分析與 中去.前提 具有某種共同性質的資料,其具有一定的統計規律性 分類 監督學習,非監督學習,半監督學習,強化學習 基本概念 輸入空...

統計學習方法概論

這篇文章是對李航 統計學習方法 第一章的乙個回顧,主要是希望對統計學習基本概念 方法做乙個濃縮的總結,希望能對像我一樣的初學者有所幫助。假如有某些地方講的不對的,可以指明,以期促進。統計學習概念 關於計算機基於資料構建概率統計模型並運用模型進行資料 與分析的一門科學。它以計算機及網路為平台,以資料為...