統計學習方法概論

2021-07-10 06:38:43 字數 3028 閱讀 2327

這篇文章是對李航《統計學習方法》第一章的乙個回顧,主要是希望對統計學習基本概念、方法做乙個濃縮的總結,希望能對像我一樣的初學者有所幫助。假如有某些地方講的不對的,可以指明,以期促進。

統計學習概念:關於計算機基於資料構建概率統計模型並運用模型進行資料**與分析的一門科學。它以計算機及網路為平台,以資料為研究物件,以對資料進行**與分析為目的,是集概率論、統計學、資訊理論、最優化理論及電腦科學等多個領域的交叉學科。

統計學習的方法:由監督學習、非監督學習、半監督學習、強化學習等組成。

統計學習方法的步驟:

(1)得到乙個有限的訓練資料集合;

(2)確定包含所有可能的模型的假設空間,即學習模型的集合;

(3)確定模型選擇的原則,即學習的策略;

(4)實現求解最優模型的演算法,即學習的演算法;

(5)通過學習方法選擇最優模型;

(6)利用學習的最優模型對新資料進行**與分析。

統計學習的應用:人工智慧、模式識別、資料探勘、自然語言處理、語音識別、影象識別、資訊檢索、生物資訊等。

監督學習是統計學習極其重要的乙個分支。

監督學習概念:給定的訓練樣本中,每個樣本的輸入x都對應乙個確定結果y,我們需要訓練出乙個模型,這個模型在數學上是乙個x->y的對映關係f,在未知的樣本x'給定之後,我們能對y'進行**。

監督學習假設輸入與輸出的隨機變數x和y遵循聯合概率分布p(x,y),p(x,y)表示分布函式或分布密度函式。統計學習假設資料存在一定的統計規律,x和y具有聯合概率分布式是監督學習關於資料的基本假設。

監督學習的模型可以是概率模型或者非概率模型,由條件概率分布p(y|x)或決策函式y=f(x)表示。

監督學習分為學習與**兩個過程,由學習系統和**系統組成:

統計學習方法由三要素組成,簡單表示成:方法=模型+策略+演算法。

1、模型

在監督學習中,模型就是所要學習的條件概率分布或決策函式,模型的假設空間包含所有可能的條件概率分布貨決策函式。例如,假如決策函式是輸入變數的線性函式,那麼模型的假設空間就是所有這些線性函式構成的函式集合。假設空間中的模型一般有無窮個。

假設空間用f表示。假設空間可以定義為決策函式的集合。f=或者f=,前者f是乙個由引數向量決定的函式族,後者f是乙個由引數向量決定的條件概率分布族。

2、策略

有了模型的假設空間,統計學習接著要考慮按照什麼樣的準則學習或選擇最優的模型。

引入損失函式與風險函式的概念,損失函式度量模型一次**的好壞,風險函式度量平均意義下模型**的好壞。

監督學習問題是在假設空間f中選取模型f作為決策函式,對於給定輸入x,由f(x)輸出y,這個輸出值f(x)與真實值y可能一致也可能不一致,用損失函式或代價函式來度量**錯誤的程度。損失函式是f(x)和y的非負實值函式,記做l(y,f(x)

統計學習常用損失函式:(1)0-1損失(2)平方損失函式(3)絕對損失函式(4)對數損失函式

損失函式值越小,模式就越好。由於模型的輸入、輸出(x,y)是隨機變數,遵循聯合分布p(x,y),所以損失函式的期望是(x,y)損失函式與其聯合概率分布的的積分,這是理論上模型f(x)關於聯合分布p(x,y)的平均意義下的損失,稱為風險函式或期望損失。

學習的目標就是選擇期望風險最小化的模型,由於聯合分布p(x,y)未知,期望風險不能直接計算,實際上,假如知道聯合分布p(x,y)可以直接求出條件概率分布p(y|x),也就不需要學習了,所以監督學習成為乙個病態問題。

給定訓練資料集,模型f(x)關於訓練資料集的平均損失稱為經驗風險或經驗損失。

根據大數定律,樣本容量n趨向無窮時,經驗風險趨向期望風險。所以很自然的想法是根據經驗風險估計期望風險。但是現實情況是,n有限,用經驗風險估計期望風險常常不理想,所以要對經驗風險進行校正,這就關係到監督學習的兩個基本策略:經驗風險最小化和結構風險最小化。

當樣本容量足夠大時,經驗風險最小化能保證取得比較好的效果,當樣本容量比較小,容易出現過擬合,而結構風險最小化就是為了防止過擬合而提出來的策略。結構風險在經驗風險的基礎上加上表示模型複雜度的正則化項或罰項。

3、演算法

學習模型的具體計算方法,統計學習基於訓練資料集,根據學習策略,從假設空間中選擇最優模型,所以統計學習問題最終歸結為最優化問題。

當損失函式給定時,基於損失函式的模型的訓練誤差和模型的測試誤差是學習方法評估的標準。

通常將學習方法對未知資料的**能力稱為泛化能力。

模型複雜度過大,容易出現過擬合。

兩種常用模型選擇方法:正則化,交叉驗證

正則化是結構風險最小化策略的實現,是在經驗風險上加乙個正則化項或罰項,正則化項一般是模型複雜度的單調遞增函式,模型越複雜,,正則化值就越大。正則化項可以是引數向量的l2範數,也可以是引數向量的l1範數。

將隨機將資料集切分成三部分,訓練集、驗證集、測試集,訓練集用來訓練模型,驗證集用於模型選擇,測試集用於對學習方法評估。

交叉驗證基本思想是重複的使用資料,把給定的資料進行切分,將切分的資料集組合為訓練集與測試集,在此基礎上反覆進行訓練、測試、模型選擇。

生產方法是由資料學習聯合概率分布p(x,y),然後求出條件概率分布p(y|x)作為**的模型,叫做生成模型,典型生成模型有:樸素貝葉斯(nb),隱馬爾科夫(hmm)

判別方法是資料直接學習決策函式f(x)或者條件概率分布p(y|x)作為**模型,叫做判別模型。典型判別模型有:k近鄰、感知機、決策樹、邏輯斯蒂回歸(lr)、最大熵(em)、支援向量機(svm)、提公升方法(boosting)、條件隨機場(cf)

二分類問題常用評價指標是準確率(precision)、召回率(recall),通常以關注的類為正類,其他為負類。**時會出現以下四種情況:

tp-正類**為正類,fn-正類**為負類,fp-負類**為正類,tn-負類**為負類。

準確率:p=tp/(tp+fp),召回率:r=tp/(tp+fn),此外還有f1值,它準確率和召回率的調和均值,2/f1=1/p+1/r,f1=2tp/(2tp+fn+fp)

標註問題是分類問題的推廣,常用統計方法有:hmm、cf。

回歸問題用於**輸入變數與輸出變數之間的關係,回歸問題最常用的損失函式是平方損失函式,此種情況下,回歸問題可以由最小二乘法求解。

統計學習方法 1 統計學習方法概論

統計學習的主要特點是 1 統計學習以計算機及網路為平台,是建立在計算機及網路之上的 2 統計學習以資料為研究物件,是資料驅動的學科 3 統計學習的目的是對資料進行 與分析 4 統計學習以方法為中心,統計學習方法構建模型並應用模型進行 與分析 5 統計學習是概率論 統計學 資訊理論 計算理論 最優化理...

統計學習方法概論

本文是學習李航寫的 統計學習方法 一書第一章 統計學習方法概論 所做的乙個筆記,主要就是對第一章的總結。1.統計學習 統計學習是關於計算機基於資料構建概率統計模型並運用模型對資料進行 與分析的一門學科,統計學習也稱統計機器學習。由此可以看出統計學習的研究物件是資料,目的是對資料進行 與分析。同時,統...

《統計學習方法》 概論

本文是一篇學習筆記,參考 統計學習方法 一書加上自己的理解,對整個統計學習方法有個整體把握。拿到一些資料,發現這些資料中的規律或知識,將這些規律或知識用來分析新的資料,這就是統計學習。不難發現,統計學習有乙個基本假設 同類資料具有一定的統計規律性。而統計學習的目的就是 對新資料進行 和分析。以監督學...