在0-1中提到了,當最終output的p=0時,這個時候模型無法正常使用,為了解決這個問題,在0-4中會有所提及。
在本節中,其實,計算概率的時候,我們應該假設某乙個位置的詞與它前面的所有詞都是相關的,但是,如果我們這樣計算的話,可以計算出來,計算量是相當大的。例如在p(x1,x2,x3…xn)中,x是集合v中的乙個單詞,假設v的大小為|v|,也就是說(x1,x2…xn)就一共有|v|的n次方中可能。提出了馬爾可夫過程來解決。在計算p的時候,實際上我們給出了乙個獨立性假設,這個獨立性假設就是說所有的隨機變數只於它前面的隨機變數條件相關。
其實不難理解:
我們的目標是計算:
p(x1=x1,x2=x2,x3=x3…xn=xn)也就是計算0-1中提到的p(x1,x2,x3…xn)
第一種計算p的方法是first-order markov processes,一階馬爾可夫過程
現在來解釋一下這個公式:
其實,計算概率的時候,我們應該假設某乙個位置的詞與它前面的所有詞都是相關的,但是,如果我們這樣計算的話,可以計算出來,計算量是相當大的。例如在p(x1,x2,x3…xn)中,x是集合v中的乙個單詞,假設v的大小為|v|,也就是說(x1,x2…xn)就一共有|v|的n次方中可能。
所以,為了簡化問題,在一階馬爾可夫過程中,我們只假設當前的詞至於前面的乙個單詞相關,所以得到了上圖中的公式。
也就是說,在一階馬爾可夫過程中:
for any i屬於,for any x1,x2…xi
p(xi=xi|x1=x1…xi-1=xi)=p(xi=xi|xi-1=xi-1)
那麼,同理,我們也可以假設當前的單詞,至於前面的兩個單詞相關,這樣,就出現了二階馬爾可夫過程。
為了表示方便,引入了*來代表x0,x-1
例如:p(a,b)=p(a)*p(b|a)
p(a,b,c)=p(a)*p(b|a)*p(c|a,b)
在一些英文文獻中p(b|a)有的時候被寫作conditional probability of p of b given a.
在這一節中,我們把n的值設定成了定值,在下一節中,將會討論,n的值可變的時候怎麼辦。
馬爾可夫過程
馬爾可夫過程是電子通訊系統中最常見的一種隨機過程,它在資訊處理 自動控制 近代物理 電腦科學以及公用事業等很多方面都有非常重要的應用 例如我們常常提到的泊松過程和維納過程就是兩種特殊的馬爾可夫過程。基本概念 馬爾可夫過程是一種無後效的隨機過程。所謂無後效性是指,當過程在時刻tm所處的狀態為已知時,過...
馬爾可夫決策過程(四)
最近學習了 mdp,檢視一些資料,本文翻譯了維基百科 有許多地方翻譯的不好,有翻譯錯的地方請多多諒解!歡迎給我留下意見,我會盡快更改!值得注意的變種 值迭代 在值迭代 貝爾曼 1957 年 中,也被稱為 逆向歸納法,陣列是不被使用的,而是當需要時就計算 s 的值。代入 s 的計算結果到 v s 得到...
馬爾可夫決策過程 MDP
但是馬爾科夫過程中不存在動作 action 和獎勵 reward 所有馬爾科夫過程不足以描述圖1所示的強化學習過程。將動作 action 和獎勵 reward 考慮到馬爾科夫過程中去就得到了馬爾科夫決策過程。跟馬爾科夫過程不同的是,馬爾科夫決策過程的狀態轉移概率是包含動作的即 pss a p st ...