指數族分布

2021-10-12 17:45:57 字數 2040 閱讀 6959

寫在前面:本文只是對暫時學到的指數族分布的理論知識進行總結,至於指數族分布在實際機器學習中的具體應用,等後續學習到了再進行補充,也歡迎有經驗的大佬賜教~

指數族分布其實是一類分布,包括高斯分布、伯努利分布、二項分布、泊松分布、beta分布、gamma分布、dirichlet分布……但它們都能寫成統一的形式:

p (x

∣η)=

h(x)

expp(x|\eta)=h(x)exp\

p(x∣η)

=h(x

)exp

如果將a(η

)a(\eta)

a(η)

提到指數部分前面,則公式可以等價寫作:

舉個栗子,將一元高斯分布改寫成指數族分布的 pdf 的形式:

下面我們通過兩種方式進行推導,無論通過哪種方式推導,得到的結果都是一樣的。

至此,我們得出了ϕ(x

)\phi(x)

ϕ(x)

和a (η

)a(\eta)

a(η)

的關係,當其中乙個已知的時候,我們可以簡單地求出另外乙個

簡單來說,共軛的結果體現在先驗和後驗服從的是同一種分布,基於這種特性有時可以大大化簡計算。

在貝葉斯公式中,

p (z

∣x)=

p(x∣

z)p(

z)∫z

p(x∣

z)p(

z)dz

p(z|x)=\frac

p(z∣x)

=∫z​

p(x∣

z)p(

z)dz

p(x∣

z)p(

z)​我們常常會遇到分母處的積分難以計算,或者是後驗本身過於複雜,導致其某些特性(例如ep(

z∣x)

[f(x

)]e_[f(x)]

ep(z∣x

)​[f

(x)]

)難求,這時,我們會採用某些方法來近似計算,例如mcmc或者變分推斷等。而利用指數族分布的共軛性質,也是簡化該計算過程的一種比較取巧的方式,例如我們選取似然是二項分布,先驗是beta分布,那麼由共軛性質可知,後驗所服從的也一定是beta分布。

首先我們介紹一下什麼是最大熵,簡單來說,最大熵意味著所有事件發生的概率一樣大,即等可能,推導如下:

那麼什麼是最大熵原理呢?其實它只是在最大熵的基礎上,增加了滿足已知事實的約束而已(已知事實也就是資料)

問題是怎麼將資料轉換成約束呢?我們可以這麼做:

至此,問題又轉換成了如4.1一般的優化問題:

綜上,我們得出了這樣乙個結論:對於經驗分布,基於最大熵原理匯出的分布是指數族分布

指數分布族

從標題上看,是 指數分布族 exponential family 不是 指數分布 exponential distribution 這是兩個不同的概念,不要弄混了。指數分布族在上世紀30年代中期被提出,在概率論和統計學中,它是一些有著特殊形式的概率分布的集合,包括許多常用的分布,如正態分佈 指數分布...

指數族分布 相關概念理解

一 指數族分布指的是概率密度函式都能夠表述成以下形式的概率分布。其中fai x 是充分統計量,a ita 是對數配分函式。ita是規範化引數。配分函式其實就是歸一化因子的概念,為了使概率滿足概率總和為1的約束 指數族分布包括gauss分布,bernoulli分布 0,1分布 beta分布,gamma...

PRML 2 4 指數族分布

p x eta h x g eta exp b站白板推導也有乙個指數族分布標準形式,兩者是等價的 p x eta h x exp 這裡的u x phi x g eta frac eta t是乙個向量,自然的u x phi x 也是乙個向量函式,a eta 是 log partition functi...