PRML 10 變分推斷 1

2022-10-08 20:27:12 字數 3299 閱讀 5000

為什麼需要近似推斷

現在棘手的問題在於

\(1.計算給定觀察x後的隱變數z和引數\theta的後驗分布計算\)

\(2.計算觀測變數的邊緣分布\)

兩種方法達到近似推斷

1.決定性方法,-有解析解,快速,但是求出的是區域性解

2.隨機性方法,-慢,要取樣多次,但是可以得到全域性解(有證明的)

決定性推斷有哪些?

1.拉普拉斯近似,使用乙個高斯分布區近似,但是是區域性解,有可能這個分布是多峰的,沒法精確近似

2.變分推斷(本章)-全域性解方法

3.期望傳播

變分推斷是基於泛函分析的,什麼是泛函分析?

重點!!!!!!!!

function(函式):\(x \to t (通過函式f(x))\),通過乙個f將乙個值x對映為另外乙個值

functional(泛函):\(y(x)\to t(通過乙個泛函f(y)),將乙個函式通過乙個對映,對映為乙個值\)

簡單說泛函就是函式的函式

例子比如說,熵的計算

\(h(p),這裡的p是乙個分布函式p(x)\)

還有kl散度,輸入兩個概率分布,得到乙個值

所謂變分法,就是對泛函求導,求極值

泛函分析就是用變分法的取近似後驗概率\(p(z|x),z\)是隱變數

也就是找乙個概率分布q(z)來逼近我們的後驗分布\(p(z|x)\)

逼近需要度量,用kl散度計算

fix \(p\),擾動\(q\),來使得kl散度達到最小

kl散度的公式,見上圖

kl=0,即表示兩個分布是一樣的

\(p\)怎麼求?沒法得到,怎麼解決?

\(p\)都知道了,還要求q幹嘛呢?

對對數似然函式分解(第九章)+變分變數

\(ln p(x)=\mathcal(q)+kl(q||p)\)

\(圖中的z包含了隱變數和引數\theta\)

\(ln p(x)雖然沒法求,但是我們知道x是固定的,已知的,所以ln p(x)是固定值\)

\(其中q是擾動的,p(x,z)是聯合分布,不是下面kl中的條件分布,聯合分布還是好求的(怎麼求?)\)

\(本章先假設p(x,z)是可以計算的,則\mathcal 可以得到解析解\)

\(\mathcal 是乙個泛函\)

\(之前講過ln p(x) 是固定的,那麼最大化 \mathcal 相當於最小化kl(q||p)\)

\(所以思路變成最大化 \mathcal\)

\(然後用變分法求\mathcal 最大值,所以\mathcal稱為變分下界)\)

如何解決最大化問題呢,用的是平均場的方法,該方法用來限制/約束/假設\(q\)的分布

把隱變數/引數切成塊(相互之間獨立)-稱為factorized q distribution 分布分解,使得塊之間可以乘積\(q(z)=\prod q_i (z_i)\)

\(這個假設要越弱越好,q(z)要盡可能的靈活,不能影響我們計算\mathcal 的極值\)

\(將10.5公式代入10.3\)

\(推導得到10.9\)

\(q_j^*是q的每個分塊的最優解,這個最優解有10.9這個公式的表現形式\)

\(遍歷所有的z中的變數,除了不等於j的那個隱變數/引數的聯合概率分不p(x,z)先做一次ln然後求期望\)

\(因為變數之間的相互依賴關係,所以需要反覆迭代,最後收斂,達到所有q_i的最優解\)

兩個隱變數/引數 \(z_1,z_2\)

\(分別對z_1,z_2使用公式10.9計算\)

\(這裡的\lambda 都是標量,最後得到關於z_1的二次方程\)

\(根據第二章的知識,這裡得到的q_1分布是乙個高斯分布-10.12\)

這張圖就可以看到,隱變數之間相互依賴,沒法一次求得,要逐步迭代,重新估計,re-estimation

這個kl散度不是對稱的,意思就是\(kl(p||q) \ne kl(q||p)\)

如果要用\(kl(p||q)\)也是可以的,圖里展示了公式,公式下面應該有分母,是關於\(p(z)\),不應該q,所以去掉了

\(直接用變分法+拉格朗日乘子的方法,得到q_j^*(z_j) -10.3聯絡\)

\(這裡我們發現不需要做反覆迭代 10.17-為啥? 這個和期望傳播演算法有關\)

\(綠色是真實分布等高線,紅色是q分布的等高線,b表示對p的估計太大了\)

這個圖是用乙個高斯分布去近似多峰的分布(多峰表示有多個眾數)

藍色是真實的二峰的等高線,用p||q 有點均衡了所有分布的意思

\(逼近q\to p(\mu,\tau |x),\mu是均值,\tau是精度(應該是指方差的導數,第二章概率論中有)\)

\(似然函式見圖\)

\(對先驗分布進行設計,假設p(\my|\tao)為高斯分布,p(\tau)是gamma分布\)

\(為什麼這麼設計?\)

\(因為是共軛先驗,方便計算,後驗和先驗分布一樣\)

分解\(q(\mu,\tau) 10.24 不分解雖然書上沒有說明,但是應該是有問題的\)

10.25 是一元二次方程,\(q(\mu)還是乙個高斯分布,q(\tau)是gamma分布\)

\(\mu,\tau 是相互依賴的,又需要迭代了 re-estimation\)

機器學習 2 變分推斷

對於普通的函式f x 我們可以認為 f 是乙個關於 x的乙個實數運算元,其作用是將實數 x 對映到實數f x 那麼模擬這種模式,假設存在函式運算元 f 它是關於f x 的函式運算元,可以將f x 對映成實數f f x 對於f x 我們是通過改變x來求出f x 的極值,而在變分中這個 x 會被替換成乙...

機器學習 2 變分推斷

原創 2017年03月26日 10 55 45 對於普通的函式f x 我們可以認為 f 是乙個關於 x 的乙個實數運算元,其作用是將實數 x 對映到實數f x 那麼模擬這種模式,假設存在函式運算元 f 它是關於f x 的函式運算元,可以將f x 對映成實數f f x 對於f x 我們是通過改變x來求...

P10 推斷學生所屬學校的人數 15 分

某個比賽現場有來自不同學校的n名學生,給出m對 兩人同屬一所學校 的關係,請推斷學校數量,並找出人數最多的學校。輸入格式 第一行是乙個在 2,1000 範圍的整數n,接下來n行,每行是乙個在現場的學生的姓名,每個姓名僅由字母組成,長度不超過30。接下來一行是非負整數m,表示有m對關係 然後是m行,每...