PRML 10 變分推斷 1

為什麼需要近似推斷

現在棘手的問題在於

\(1.計算給定觀察x後的隱變數z和引數\theta的後驗分布計算\)

\(2.計算觀測變數的邊緣分布\)

兩種方法達到近似推斷

1.決定性方法，-有解析解，快速，但是求出的是區域性解

2.隨機性方法，-慢，要取樣多次，但是可以得到全域性解(有證明的)

決定性推斷有哪些？

1.拉普拉斯近似，使用乙個高斯分布區近似，但是是區域性解，有可能這個分布是多峰的，沒法精確近似

2.變分推斷(本章)-全域性解方法

3.期望傳播

變分推斷是基於泛函分析的，什麼是泛函分析？

重點!!!!!!!!

function(函式):\(x \to t (通過函式f(x))\),通過乙個f將乙個值x對映為另外乙個值

functional(泛函):\(y(x)\to t(通過乙個泛函f(y)),將乙個函式通過乙個對映，對映為乙個值\)

簡單說泛函就是函式的函式

例子比如說，熵的計算

\(h(p),這裡的p是乙個分布函式p(x)\)

還有kl散度,輸入兩個概率分布，得到乙個值

所謂變分法，就是對泛函求導，求極值

泛函分析就是用變分法的取近似後驗概率\(p(z|x),z\)是隱變數

也就是找乙個概率分布q(z)來逼近我們的後驗分布\(p(z|x)\)

逼近需要度量，用kl散度計算

fix \(p\),擾動\(q\)，來使得kl散度達到最小

kl散度的公式，見上圖

kl=0,即表示兩個分布是一樣的

\(p\)怎麼求？沒法得到，怎麼解決?

\(p\)都知道了，還要求q幹嘛呢?

對對數似然函式分解(第九章)+變分變數

\(ln p(x)=\mathcal(q)+kl(q||p)\)

\(圖中的z包含了隱變數和引數\theta\)

\(ln p(x)雖然沒法求，但是我們知道x是固定的，已知的，所以ln p(x)是固定值\)

\(其中q是擾動的，p(x,z)是聯合分布，不是下面kl中的條件分布，聯合分布還是好求的(怎麼求？)\)

\(本章先假設p(x,z)是可以計算的,則\mathcal 可以得到解析解\)

\(\mathcal 是乙個泛函\)

\(之前講過ln p(x) 是固定的，那麼最大化 \mathcal 相當於最小化kl(q||p)\)

\(所以思路變成最大化 \mathcal\)

\(然後用變分法求\mathcal 最大值,所以\mathcal稱為變分下界)\)

如何解決最大化問題呢，用的是平均場的方法，該方法用來限制/約束/假設\(q\)的分布

把隱變數/引數切成塊(相互之間獨立)-稱為factorized q distribution 分布分解，使得塊之間可以乘積\(q(z)=\prod q_i (z_i)\)

\(這個假設要越弱越好,q(z)要盡可能的靈活,不能影響我們計算\mathcal 的極值\)

\(將10.5公式代入10.3\)

\(推導得到10.9\)

\(q_j^*是q的每個分塊的最優解，這個最優解有10.9這個公式的表現形式\)

\(遍歷所有的z中的變數，除了不等於j的那個隱變數/引數的聯合概率分不p(x,z)先做一次ln然後求期望\)

\(因為變數之間的相互依賴關係，所以需要反覆迭代，最後收斂，達到所有q_i的最優解\)

兩個隱變數/引數 \(z_1,z_2\)

\(分別對z_1,z_2使用公式10.9計算\)

\(這裡的\lambda 都是標量,最後得到關於z_1的二次方程\)

\(根據第二章的知識，這裡得到的q_1分布是乙個高斯分布-10.12\)

這張圖就可以看到，隱變數之間相互依賴，沒法一次求得，要逐步迭代，重新估計，re-estimation

這個kl散度不是對稱的，意思就是\(kl(p||q) \ne kl(q||p)\)

如果要用\(kl(p||q)\)也是可以的，圖里展示了公式,公式下面應該有分母，是關於\(p(z)\)，不應該q，所以去掉了

\(直接用變分法+拉格朗日乘子的方法，得到q_j^*(z_j) -10.3聯絡\)

\(這裡我們發現不需要做反覆迭代 10.17-為啥? 這個和期望傳播演算法有關\)

\(綠色是真實分布等高線，紅色是q分布的等高線，b表示對p的估計太大了\)

這個圖是用乙個高斯分布去近似多峰的分布(多峰表示有多個眾數)

藍色是真實的二峰的等高線，用p||q 有點均衡了所有分布的意思

\(逼近q\to p(\mu,\tau |x),\mu是均值，\tau是精度(應該是指方差的導數,第二章概率論中有)\)

\(似然函式見圖\)

\(對先驗分布進行設計，假設p(\my|\tao)為高斯分布,p(\tau)是gamma分布\)

\(為什麼這麼設計?\)

\(因為是共軛先驗，方便計算，後驗和先驗分布一樣\)

分解\(q(\mu,\tau) 10.24 不分解雖然書上沒有說明，但是應該是有問題的\)

10.25 是一元二次方程，\(q(\mu)還是乙個高斯分布,q(\tau)是gamma分布\)

\(\mu,\tau 是相互依賴的，又需要迭代了 re-estimation\)

機器學習 2 變分推斷

對於普通的函式f x 我們可以認為 f 是乙個關於 x的乙個實數運算元，其作用是將實數 x 對映到實數f x 那麼模擬這種模式，假設存在函式運算元 f 它是關於f x 的函式運算元，可以將f x 對映成實數f f x 對於f x 我們是通過改變x來求出f x 的極值，而在變分中這個 x 會被替換成乙...

機器學習 2 變分推斷

原創 2017年03月26日 10 55 45 對於普通的函式f x 我們可以認為 f 是乙個關於 x 的乙個實數運算元，其作用是將實數 x 對映到實數f x 那麼模擬這種模式，假設存在函式運算元 f 它是關於f x 的函式運算元，可以將f x 對映成實數f f x 對於f x 我們是通過改變x來求...

P10 推斷學生所屬學校的人數 15 分

某個比賽現場有來自不同學校的n名學生，給出m對兩人同屬一所學校的關係，請推斷學校數量，並找出人數最多的學校。輸入格式第一行是乙個在 2,1000 範圍的整數n，接下來n行，每行是乙個在現場的學生的姓名，每個姓名僅由字母組成，長度不超過30。接下來一行是非負整數m，表示有m對關係然後是m行，每...

PRML 10 變分推斷 1

機器學習 2 變分推斷

機器學習 2 變分推斷

P10 推斷學生所屬學校的人數 15 分

相關推薦