深入理解線性模型(三) 基於貝葉斯的估計

2022-08-01 16:15:14 字數 2947 閱讀 5780

目錄6. 結語

在前兩篇,我們分別從損失函式以及似然函式的角度來窺探了線性模型。接下來,繼續從乙個新的角度---貝葉斯統計來討論一下線性模型。

談起貝葉斯,就不得不提先驗概率和後驗概率。先驗概率通常是通過歷史或者經驗得來的,而後驗概率則是綜合利用了先驗資訊和樣本資訊。因此,貝葉斯統計的出發點也是基於後驗概率的。

那麼先驗概率和後驗概率實際上是怎樣呢?以乙個簡單的例子為,由三家公司a、b、c合作生成一種產品,a公司承包50%的生產,b公司承包30%的生產,c公司承包剩下20%的生產。生產完後,三家公司把全部商品把包在一起,開開心心地去送貨

。然而驗貨的時候發現出問題了,於是買家要求這幾家公司作出賠償。但是,各家公司都認為自己生產的產品沒有任何的問題,各家公司的負責人爭得面紅耳赤

。最後,買家實在看不下去了,就跟他們說:「既然你們都覺得自家的生產沒有問題,就按生產的份額來賠償吧。」於是,a公司承擔50%的責任,b公司承擔30%的責任,c公司承擔20%的責任。而這裡「50%、30%、20%」也其實便是所謂的先驗資訊。

而當我們知道a、b、c公司生產的不合格分別為p(a)、p(b)、p(c)時,對於追究責任時又會發生不同的變化。

\[p(a|不合格) = \frac \\

p(b|不合格) = \frac \\

p(c|不合格) = \frac \\

\]這裡的\(p(a|不合格)、p(b|不合格)、p(c|不合格)\)就是所謂的後驗概率,它通過綜合利用先驗資訊和資料資訊來決定a、b、c公司分別應該承擔的責任。而實際上p(a)、p(b)、p(c)也是一種後驗概率,也就是某一家公司生產的不合格率,寫清晰一點就是\(p(不合格|a)、p(不合格|b)、p(不合格|c)\)

於是便有了著名的貝葉斯公式:

\[p(a_1|b) = \frac^np(a_i)p(b|a_i)}

\]其中,\(p(b) = \sum_^np(a_i)p(b|a_i)\)為全概率公式

在貝葉斯統計中,認為一切引數為隨機變數。因此,對於線性模型\(y = x\beta +\varepsilon\),貝葉斯統計中同樣也認為\(\beta\)是乙個隨機變數,因此也服從乙個分布\(\beta \sim f(\beta)\),而這個\(f(\beta)\)也就是\(\beta\)的乙個先驗分布。當固定x的時候,就稱\(f(\beta|x)\)為\(\beta\)的後驗分布,而這個分布綜合了先驗資訊和資料資訊。而貝葉斯統計的思路就是利用這個後驗分布求後驗均值/中位數等特徵來作為\(\beta\)。

以後驗均值為例:(對於後驗密度函式\(f(\beta|x)\))

\[\hat \beta = e(\beta) = \int_^ \beta f(\beta|x) d\beta = \int_^ \beta \frac d\beta = \frac \int_^ \beta f(\beta) f(x|\beta) d\beta

\]其中,我們也把\(f(\beta) f(x|\beta)\)稱為核。由上述可以看出\(f(\beta|x)\)應該是和\(f(\beta)f(x|\beta)\)成正比的,就差了乙個常數,即有:

\[f(\beta|x) \propto f(\beta) f(x|\beta) = \pi(\beta)l(\beta, x)

\]其中,\(\pi(\beta)\)指的是先驗資訊,\(f(x|\beta)\)就相當於似然函式,因為我們之前求似然函式的時候也是把\(\beta\)固定後寫出的。

這裡只議論假設1的情況,其他的假設也是類似的。當我們的模型基於假設1的時候,即\(\varepsilon \sim n(0, \sigma^2i_n)\)

\[l(\beta, \sigma^2, y, x) = (\frac\sigma})^n e^ \displaystyle \sum_^n(y_i - x_i\beta)^2}

\]因此,有:

\begin

\begin

f(\beta|(x,y)) & \propto \pi(\beta)(\frac\sigma})^n e^ \displaystyle \sum_^n(y_i - x_i\beta)^2}\\

& \propto \pi(\beta) e^ \displaystyle \sum_^n(y_i - x_i\beta)^2}

\end

\end

其實我們可以發現\(f(\beta|(x,y))\)也有\(\sum_^n(y_i - x_i\beta)^2\)的部分,這正好也對應著損失函式,此外在這裡的先驗概率\(\pi(\beta)\)實際上是由我們來定的。

當我們對\(\beta\)一無所知的時候,那麼我們便認為取任何值都是等可能的,此時的先驗概率\(\pi(\beta) \propto k\),k為常數

所謂共軛先驗也就是取乙個先驗概率,乘以似然函式,不會改變似然的分布。例如正態分佈和正態分佈是共軛的,伽馬分布和伽馬分布是共軛的

根據共軛先驗,我們可以設\(\pi(\beta) \sim n(\beta, \sigma_^2)\),即\(\pi(\beta) \propto e^\),之後只要對\(\pi(\beta)l(\beta, \sigma^2, y, x)\)進行配平方,配成\(e^}\)的形式,裡面的\(\mu\)就是我們要求的估計

而如果對\(\sigma^2\)來說,

\begin

\begin

f(\sigma^2|x,y) & \propto \pi(\sigma^2)l(\beta, \sigma^2, y, x)\\

& \propto \pi(\sigma^2) (\sigma^2 )^} e^}

\end

\end

其中,\(k= \frac \sum_^n(y_i - x_i\beta)^2\)

可以看出似然函式應該是乙個伽馬分布(\(p(x) = \frac x^e^\)),那麼根據共軛先驗\(\pi(\sigma)\)應該也是乙個伽馬分布。

至此,我們終於完成了分別從損失函式、似然函式和貝葉斯這三個角度討論線性模型的偉業

。實際上,這三種角度其實是模型的三種不同的正規化,有許多問題都可以分別從這三個框架來進行研究。

如何深入理解貝葉斯?

如何理解貝葉斯這個重要的概念?到底什麼是貝葉斯 bayes是用於推理的,而推理講究證據,所以貝葉斯的推理過程就是通過不斷的收集證據e來增強對假設事件h的信心。換而言之這很類似偵探辦案的例子,假設 是h,福爾摩斯通過不斷蒐集證據,增強自己認定 就是a的信心,這個過程就是貝葉斯。p h e p h p ...

貝葉斯模型的理解(1)

一直以來,都在聽說貝葉斯概率模型,這裡記錄一下自己對貝葉斯概率模型的一些理解。貝葉斯模型的建立主要有3個概念 1.先驗概率。2.最大似然函式。3.後驗概率 這3個概念怎麼建立聯絡呢,以投硬幣這個簡單的例子來理解最好。例子 首先為拋硬幣制定乙個規則 押一塊錢,拋10次硬幣,出現正面的次數小於等於6次就...

貝葉斯的理解

用概率思考人生 問題 事件a發生後事件b發生的概率與事件b發生後事件a發生的概率這兩者有什麼關係 呢?這兩者之間存在確定的關係,貝葉斯公式描述的這是這兩者之間的確定關係 公式如下 p a b p ab p b p b a p a p b p b a p ab p a p a b p b p a 當p...