馬爾可夫過程

2022-09-13 17:30:15 字數 585 閱讀 5512

馬爾可夫過程是電子通訊系統中最常見的一種隨機過程,它在資訊處理、自動控制、近代物理、電腦科學以及公用事業等很多方面都有非常重要的應用

例如我們常常提到的泊松過程和維納過程就是兩種特殊的馬爾可夫過程。

基本概念:

馬爾可夫過程是一種無後效的隨機過程。所謂無後效性是指,當過程在時刻tm所處的狀態為已知時,過程在大於tm的時刻所處狀態的概率特性只與過程tm時刻所處的狀態有關,而與過程在tm時刻以前的狀態無關。稱這種特性為馬爾可夫性。

例如**交換站在t時刻前來到的呼叫數x(t)(即時間[0,t]內來到的呼叫次數)是乙個隨機過程。已知現在tm時刻以前的呼叫次數,未來時刻t(t>tm)前來到的呼叫數隻依賴於tm時刻以前的呼叫次數,而[tm,t]內來到的呼叫數與tm時刻以前的呼叫次數相互獨立。因此,x(t)具有無後效性,屬於一種馬爾可夫過程。

馬爾可夫過程按照引數集和狀態空間(值域)的情況一般可分為四大類:

時間離散、狀態連續的馬爾可夫過程稱為馬爾可夫序列;

時間離散、狀態離散的馬爾可夫過程稱為馬爾科夫鏈;

時間連續、狀態離散的馬爾可夫過程稱為可列馬爾科夫過程;

還有一種時間連續、狀態連續的馬爾可夫過程(布朗運動、維納過程)

馬爾可夫決策過程(四)

最近學習了 mdp,檢視一些資料,本文翻譯了維基百科 有許多地方翻譯的不好,有翻譯錯的地方請多多諒解!歡迎給我留下意見,我會盡快更改!值得注意的變種 值迭代 在值迭代 貝爾曼 1957 年 中,也被稱為 逆向歸納法,陣列是不被使用的,而是當需要時就計算 s 的值。代入 s 的計算結果到 v s 得到...

馬爾可夫決策過程 MDP

但是馬爾科夫過程中不存在動作 action 和獎勵 reward 所有馬爾科夫過程不足以描述圖1所示的強化學習過程。將動作 action 和獎勵 reward 考慮到馬爾科夫過程中去就得到了馬爾科夫決策過程。跟馬爾科夫過程不同的是,馬爾科夫決策過程的狀態轉移概率是包含動作的即 pss a p st ...

0 2馬爾可夫過程Markov Processes

在0 1中提到了,當最終output的p 0時,這個時候模型無法正常使用,為了解決這個問題,在0 4中會有所提及。在本節中,其實,計算概率的時候,我們應該假設某乙個位置的詞與它前面的所有詞都是相關的,但是,如果我們這樣計算的話,可以計算出來,計算量是相當大的。例如在p x1,x2,x3 xn 中,x...