寫在前面:本文只是對暫時學到的指數族分布的理論知識進行總結,至於指數族分布在實際機器學習中的具體應用,等後續學習到了再進行補充,也歡迎有經驗的大佬賜教~指數族分布其實是一類分布,包括高斯分布、伯努利分布、二項分布、泊松分布、beta分布、gamma分布、dirichlet分布……但它們都能寫成統一的形式:
p (x
∣η)=
h(x)
expp(x|\eta)=h(x)exp\
p(x∣η)
=h(x
)exp
如果將a(η
)a(\eta)
a(η)
提到指數部分前面,則公式可以等價寫作:
舉個栗子,將一元高斯分布改寫成指數族分布的 pdf 的形式:
下面我們通過兩種方式進行推導,無論通過哪種方式推導,得到的結果都是一樣的。
至此,我們得出了ϕ(x
)\phi(x)
ϕ(x)
和a (η
)a(\eta)
a(η)
的關係,當其中乙個已知的時候,我們可以簡單地求出另外乙個
簡單來說,共軛的結果體現在先驗和後驗服從的是同一種分布,基於這種特性有時可以大大化簡計算。
在貝葉斯公式中,
p (z
∣x)=
p(x∣
z)p(
z)∫z
p(x∣
z)p(
z)dz
p(z|x)=\frac
p(z∣x)
=∫z
p(x∣
z)p(
z)dz
p(x∣
z)p(
z)我們常常會遇到分母處的積分難以計算,或者是後驗本身過於複雜,導致其某些特性(例如ep(
z∣x)
[f(x
)]e_[f(x)]
ep(z∣x
)[f
(x)]
)難求,這時,我們會採用某些方法來近似計算,例如mcmc或者變分推斷等。而利用指數族分布的共軛性質,也是簡化該計算過程的一種比較取巧的方式,例如我們選取似然是二項分布,先驗是beta分布,那麼由共軛性質可知,後驗所服從的也一定是beta分布。
首先我們介紹一下什麼是最大熵,簡單來說,最大熵意味著所有事件發生的概率一樣大,即等可能,推導如下:
那麼什麼是最大熵原理呢?其實它只是在最大熵的基礎上,增加了滿足已知事實的約束而已(已知事實也就是資料)
問題是怎麼將資料轉換成約束呢?我們可以這麼做:
至此,問題又轉換成了如4.1一般的優化問題:
綜上,我們得出了這樣乙個結論:對於經驗分布,基於最大熵原理匯出的分布是指數族分布
指數分布族
從標題上看,是 指數分布族 exponential family 不是 指數分布 exponential distribution 這是兩個不同的概念,不要弄混了。指數分布族在上世紀30年代中期被提出,在概率論和統計學中,它是一些有著特殊形式的概率分布的集合,包括許多常用的分布,如正態分佈 指數分布...
指數族分布 相關概念理解
一 指數族分布指的是概率密度函式都能夠表述成以下形式的概率分布。其中fai x 是充分統計量,a ita 是對數配分函式。ita是規範化引數。配分函式其實就是歸一化因子的概念,為了使概率滿足概率總和為1的約束 指數族分布包括gauss分布,bernoulli分布 0,1分布 beta分布,gamma...
PRML 2 4 指數族分布
p x eta h x g eta exp b站白板推導也有乙個指數族分布標準形式,兩者是等價的 p x eta h x exp 這裡的u x phi x g eta frac eta t是乙個向量,自然的u x phi x 也是乙個向量函式,a eta 是 log partition functi...