為什麼需要近似推斷
現在棘手的問題在於
\(1.計算給定觀察x後的隱變數z和引數\theta的後驗分布計算\)
\(2.計算觀測變數的邊緣分布\)
兩種方法達到近似推斷
1.決定性方法,-有解析解,快速,但是求出的是區域性解
2.隨機性方法,-慢,要取樣多次,但是可以得到全域性解(有證明的)
決定性推斷有哪些?
1.拉普拉斯近似,使用乙個高斯分布區近似,但是是區域性解,有可能這個分布是多峰的,沒法精確近似
2.變分推斷(本章)-全域性解方法
3.期望傳播
變分推斷是基於泛函分析的,什麼是泛函分析?
重點!!!!!!!!
function(函式):\(x \to t (通過函式f(x))\),通過乙個f將乙個值x對映為另外乙個值
functional(泛函):\(y(x)\to t(通過乙個泛函f(y)),將乙個函式通過乙個對映,對映為乙個值\)
簡單說泛函就是函式的函式
例子比如說,熵的計算
\(h(p),這裡的p是乙個分布函式p(x)\)
還有kl散度,輸入兩個概率分布,得到乙個值
所謂變分法,就是對泛函求導,求極值
泛函分析就是用變分法的取近似後驗概率\(p(z|x),z\)是隱變數
也就是找乙個概率分布q(z)來逼近我們的後驗分布\(p(z|x)\)
逼近需要度量,用kl散度計算
fix \(p\),擾動\(q\),來使得kl散度達到最小
kl散度的公式,見上圖
kl=0,即表示兩個分布是一樣的
\(p\)怎麼求?沒法得到,怎麼解決?
\(p\)都知道了,還要求q幹嘛呢?
對對數似然函式分解(第九章)+變分變數
\(ln p(x)=\mathcal(q)+kl(q||p)\)
\(圖中的z包含了隱變數和引數\theta\)
\(ln p(x)雖然沒法求,但是我們知道x是固定的,已知的,所以ln p(x)是固定值\)
\(其中q是擾動的,p(x,z)是聯合分布,不是下面kl中的條件分布,聯合分布還是好求的(怎麼求?)\)
\(本章先假設p(x,z)是可以計算的,則\mathcal 可以得到解析解\)
\(\mathcal 是乙個泛函\)
\(之前講過ln p(x) 是固定的,那麼最大化 \mathcal 相當於最小化kl(q||p)\)
\(所以思路變成最大化 \mathcal\)
\(然後用變分法求\mathcal 最大值,所以\mathcal稱為變分下界)\)
如何解決最大化問題呢,用的是平均場的方法,該方法用來限制/約束/假設\(q\)的分布
把隱變數/引數切成塊(相互之間獨立)-稱為factorized q distribution 分布分解,使得塊之間可以乘積\(q(z)=\prod q_i (z_i)\)
\(這個假設要越弱越好,q(z)要盡可能的靈活,不能影響我們計算\mathcal 的極值\)
\(將10.5公式代入10.3\)
\(推導得到10.9\)
\(q_j^*是q的每個分塊的最優解,這個最優解有10.9這個公式的表現形式\)
\(遍歷所有的z中的變數,除了不等於j的那個隱變數/引數的聯合概率分不p(x,z)先做一次ln然後求期望\)
\(因為變數之間的相互依賴關係,所以需要反覆迭代,最後收斂,達到所有q_i的最優解\)
兩個隱變數/引數 \(z_1,z_2\)
\(分別對z_1,z_2使用公式10.9計算\)
\(這裡的\lambda 都是標量,最後得到關於z_1的二次方程\)
\(根據第二章的知識,這裡得到的q_1分布是乙個高斯分布-10.12\)
這張圖就可以看到,隱變數之間相互依賴,沒法一次求得,要逐步迭代,重新估計,re-estimation
這個kl散度不是對稱的,意思就是\(kl(p||q) \ne kl(q||p)\)
如果要用\(kl(p||q)\)也是可以的,圖里展示了公式,公式下面應該有分母,是關於\(p(z)\),不應該q,所以去掉了
\(直接用變分法+拉格朗日乘子的方法,得到q_j^*(z_j) -10.3聯絡\)
\(這裡我們發現不需要做反覆迭代 10.17-為啥? 這個和期望傳播演算法有關\)
\(綠色是真實分布等高線,紅色是q分布的等高線,b表示對p的估計太大了\)
這個圖是用乙個高斯分布去近似多峰的分布(多峰表示有多個眾數)
藍色是真實的二峰的等高線,用p||q 有點均衡了所有分布的意思
\(逼近q\to p(\mu,\tau |x),\mu是均值,\tau是精度(應該是指方差的導數,第二章概率論中有)\)
\(似然函式見圖\)
\(對先驗分布進行設計,假設p(\my|\tao)為高斯分布,p(\tau)是gamma分布\)
\(為什麼這麼設計?\)
\(因為是共軛先驗,方便計算,後驗和先驗分布一樣\)
分解\(q(\mu,\tau) 10.24 不分解雖然書上沒有說明,但是應該是有問題的\)
10.25 是一元二次方程,\(q(\mu)還是乙個高斯分布,q(\tau)是gamma分布\)
\(\mu,\tau 是相互依賴的,又需要迭代了 re-estimation\)
機器學習 2 變分推斷
對於普通的函式f x 我們可以認為 f 是乙個關於 x的乙個實數運算元,其作用是將實數 x 對映到實數f x 那麼模擬這種模式,假設存在函式運算元 f 它是關於f x 的函式運算元,可以將f x 對映成實數f f x 對於f x 我們是通過改變x來求出f x 的極值,而在變分中這個 x 會被替換成乙...
機器學習 2 變分推斷
原創 2017年03月26日 10 55 45 對於普通的函式f x 我們可以認為 f 是乙個關於 x 的乙個實數運算元,其作用是將實數 x 對映到實數f x 那麼模擬這種模式,假設存在函式運算元 f 它是關於f x 的函式運算元,可以將f x 對映成實數f f x 對於f x 我們是通過改變x來求...
P10 推斷學生所屬學校的人數 15 分
某個比賽現場有來自不同學校的n名學生,給出m對 兩人同屬一所學校 的關係,請推斷學校數量,並找出人數最多的學校。輸入格式 第一行是乙個在 2,1000 範圍的整數n,接下來n行,每行是乙個在現場的學生的姓名,每個姓名僅由字母組成,長度不超過30。接下來一行是非負整數m,表示有m對關係 然後是m行,每...