馬爾科夫鏈

2022-02-01 00:28:21 字數 4508 閱讀 4193

\(x_0,x_1,...,x_n\),\(n\)表示時間,如果\(x_0, ...x_n\)都是獨立的,那麼這個假設限制性太大,不能對現實世界建模。而如果\(x_0, ...x_n\)彼此可以任意互動影響,那麼模型太難計算。馬爾科夫鏈是單步影響(one-step dependence)的序列,乙個折中的假設。

馬爾科夫鏈存在時間和空間中,\(x_n\)的可能取值是狀態空間,\(n\) 是轉移過程的時間。時空都是可離散、可連續。現只討論離散空間、離散時間、有限狀態空間的情形。

定義11.1.1:對於取值空間是\(\\)的隨機變數序列\(x_0,x_1,...,x_n\),如果對於所有\(n>0\),存在

\[p(x_=j|x_n=i,x_=i_,...,x_0=i_0)=p(x_=j|x_n=i)

\],那麼這個序列就是馬爾科夫鏈。\(p(x_=j|x_n=i)\)被稱為轉移概率。本討論中如果沒有明確說明,預設馬爾科夫鏈是時間同性的(time-homogeneous ),即對於所有時間\(n\),轉移概率都是相同的。

以上等式即是馬爾科夫性質,即只有\(x_\)影響到\(x_n\)。如果\(n\)代表現在,\(n\)之前代表過去,\(n\)之後代表未來,那麼馬爾科夫性質表示過去和未來是條件獨立的。

為了描述馬爾科夫鏈的過程,我們必須知道轉移概率\(p(x_=j|x_n=i)\),轉移概率編碼在轉移矩陣裡。

定義11.1.2:\(x_0,x_1,...,x_n\)是取值空間為\(\\)的馬爾科夫鏈,\(q_=p(x_=j|x_n=i)\)是從\(i\)到\(j\)的轉移概率,那麼\(m \times m\)矩陣\(q=(q_)\)是其轉移矩陣。

注意,\(q\)是非負矩陣,且每行的和為1。

例11.1.3:(晴天雨天)假設對於任一天,天氣只能是晴天或雨天(rainy or sunny )。如果今天雨,那麼明天雨概率\(1/3\),明天晴概率\(2/3\)。如果今天晴,明天雨概率\(1/2\),明天晴概率\(1/2\)。\(x_n\)表示\(n\)天的天氣,那麼\(x_0,x_1,...,x_n\)時空間狀態為\(\\)的馬爾科夫鏈。那麼其轉移矩陣是:

\[\left(

\begin

1/3 & 2/3 \\

1/2 & 1/2

\end

\right)

\]也可以用轉移狀態圖表示。

如果明天天氣取決於昨天和今天的天氣,比如,如果連續兩天晴天,下一天必然是雨天,如果連續兩天雨天,下一天必是晴天。那麼為了符合馬爾科夫性質,狀態空間變為\(\\),相應的狀態轉移矩陣也會變化。

定義11.1.4:\(n\)步轉移概率。從\(i\)經過\(n\)步後變為\(j\)的概率,用\(q_^\)表示:

\[q_^=p(x_n=j|x_0=i)

\]注意

\[q_^ = \sum_kq_}

\]等式右邊是\(q^2\)矩陣的第\((i,j)\)項,所以\(q^2\)給出了\(2\)步的轉移矩陣。歸納可知,\(q_^是q^n的第(i,j)項\)。

計算\(x_0,x_1,...,x_n\)的邊緣分布需要轉移矩陣和初始狀態。初始狀態\(x_0\)可以指定,也可以根據分布隨機選取,假設\((t_1, t_2,...t_m)\)是\(x_0\)的\(pmf\),即\(t_i=p(x_0=i)\),那麼邊緣分布可以如下計算。

定理11.1.6:\(x_n\)的邊緣分布。令\(\textbf=(t_1,t_2,...,t_m)\),其中\(t_i=p(x_0=i)\),\(\textbf\)是行向量,\(x_n\)的邊緣分布是\(\textbfq^n\),即\(\textbfq^n\)的第\(j\)項是\(p(x_n=j)\)。

證明:\[p(x_n=j)=\sum_^=\sum_^^}

\]馬爾科夫鏈的狀態可以根據其在長期的過程中經常出現或者不出現,分為週期性的(recurrent)和瞬時的(transient)。狀態也可以用週期(period)分類,即兩次在同乙個狀態之間的時間。

如上圖,1、2、3是瞬時的(transient)狀態,4、5、6是週期性(recurrent)狀態。

定義11.2.1:從狀態\(i\)出發,最終回到狀態\(i\)的概率是1,那麼狀態\(i\)就是週期性狀態,否則,就是暫時性狀態,即說從狀態\(i\)出發後無法回到狀態\(i\)的概率是正值。或者說,只要永遠離開狀態\(i\)的概率是正值,那麼一定會永遠離開狀態\(i\),離開狀態\(i\)之前回到狀態\(i\)的次數其實就是幾何分布,\(geom(p)\)。

定理11.2.2:回到暫時狀態\(i\)的次數是幾何分布。\(i\)是馬爾科夫鏈的暫時性狀態,從\(i\)出發後無法回到\(i\)的狀態是正值\(p\),\(p>0\)。那麼離開狀態\(i\)前,從狀態\(i\)出發又回到狀態\(i\)的次數是幾何分布\(geom(p)\)。

即只要有概率走上不歸路,那麼它一定會走上不歸路,所以才叫暫時性狀態。走上不歸路前徘徊的次數是幾何分布。

方便的話,畫出狀態轉移圖如上圖,即可對狀態進行分類。

定義11.2.3:轉移矩陣為\(q\)的馬爾科夫鏈,如果對於任意兩個狀態\(i\)和\(j\),都能在有限的時間步中從狀態\(i\)轉移到狀態\(j\)(即轉移概率是正值),那麼該鏈就是不可約的(irreducible)鏈。或者說,對於任意\(i\)、\(j\),存在正整數\(n\)使得\(q^n\)的\((i,j)\)項為正值。不是不可約的馬爾科夫鏈,即可約的(reducible)馬爾科夫鏈。

定理11.2.4:不可約的馬爾科夫鏈的所有狀態都是週期性狀態。

但是反過來不成立,因為有可能可約的馬爾科夫鏈的所有狀態都是週期性的。反例如圖。

例11.2.5:賭徒的毀滅

例11.2.6:收集優惠券

另一種分類方式是根據狀態的持續時間。

定義11.2.8:狀態\(i\)的週期(period),即從狀態\(i\)出發再回到狀態\(i\)的所有可能的步數的最大公約數。如果狀態\(i\)的週期是1,那麼狀態\(i\)是非週期性的,否則就是週期性的。如果乙個馬爾科夫鏈的所有狀態\(i\)都是非週期性的,那麼這條鏈就是非週期性的。

定理11.2.9:不可約的馬爾科夫鏈的所有狀態都有相同的週期。

最開始時間,馬爾科夫鏈可能會在暫時性狀態中,但最終,馬爾科夫鏈一直都在週期性狀態中。那麼在每個週期性狀態的時間分布是怎麼樣的?定常分布就是回答這個問題的。

定常分布描述了長期執行中,馬爾科夫鏈在每個定常狀態的概率,和待在每個定常狀態花的時間。

定義11.3.1:定常狀態。對於行向量\(\textbf=(s_1,s_2,...s_m)\),其中\(s_i \geq 0且 \sum_=1\),如果對於馬爾科夫鏈的轉移矩陣,對於所有\(j\)存在

\[\sum_}=s_i

\]即,

\[\textbfq=\textbf

\]那麼\(\textbf\)就是乙個定常分布。

\(\textbf\)是\(x_0\)的分布,那麼\(\textbfq\)是\(x_1\)的分布,也是\(\textbf\),同樣地,\(x_2,x_3\)分布都是\(\textbf\)。即,如果馬爾科夫鏈的初始狀態是定常分布,那麼永遠都是定常分布。

\(\textbf\)是\(q\)的特徵為1的左特徵向量。

11.3.1 存在性和唯一性

對於有限狀態空間的馬爾科夫鏈,定常分布一定存在。對於不可約的馬爾科夫鏈,定常分布是唯一的。

定理11.3.5:定常分布的存在性和唯一性。對於不可約的馬爾科夫鏈,存在唯一的定常分布,且其中的每個狀態都是正的概率。

11.3.2 收斂性

定理11.3.6:\(x_0,x_1,...\)是不可約、非週期的馬爾科夫鏈,其定常分布是\(}\),轉移矩陣是\(q\)。那麼隨著\(n\to \infty\),\(p(x_n=i)\)收斂於\(s_i\)。也就是說\(q^n\)收斂於每行都是\(\textbf\)的矩陣。

因此,經過一定時間步後,鏈的狀態是狀態\(i\)的概率基本接近定常分布\(s_i\)。

11.3.3 google pagerank通常來說,找到定常分布需要大量的計算,本節介紹了一種特殊情況下不用求特徵方程的方法。

定義11.4.1:可逆性。\(q=(q_)\)是馬爾科夫鏈的轉移方程。\(\textbf=(s_1,s_2,...,s_m), s_i \geq 0, \sum_i=1\),使得對於所有狀態\(i,j\)成立:

\[s_i q_ = s_j q_

\]這個等式即是可逆性。

定理11.4.2:可逆性意味著定常。

參考:introduction to probability, second edition (chapman & hall/crc texts in statistical science)

基本就是這本書第11章的內容

馬爾科夫鏈

馬爾科夫鏈,是數學中具有馬爾科夫性質的離散事件隨機過程。該過程中,在給定當前知識和資訊的情況下,過去 即當前以前的歷史狀態 對於 將來 即當前以後的未來狀態 是無關的 一 馬爾科夫性質 原理簡潔 x1,x2,x3 馬爾科夫鏈 描述了乙個狀態序列,其每個狀態值取決於前面有限個狀態。馬爾科夫鏈是具有馬爾...

馬爾科夫過程,馬爾科夫獎勵過程和馬爾科夫決策過程

馬爾科夫決策過程是強化學習中的乙個基本框架,用來表示agent與環境的互動過程 agent觀測得到環境的當前狀態之後,採取動作,環境進入下乙個狀態,agent又得到下乙個環境狀態的資訊,形成乙個迴圈迴路。在理解馬爾科夫決策過程之前,首先要理解馬爾科夫 馬爾科夫獎勵過程。1.馬爾科夫過程 滿足馬爾科夫...

通俗理解馬爾科夫鏈

這裡 馬爾可夫鏈 markov chain 無記憶性概率圖模型 它是隨機過程中的一種過程,乙個統計模型,到底是哪一種過程呢?好像一兩句話也說不清楚,還是先看個例子吧。隨機過程可簡單理解成比隨機變數多了乙個引數維度,而該引數一般是時間。即 隨機變數 x w r 隨機過程x w,u r,其中u一般為t ...