MDP中常用的概率分布

2021-09-14 06:25:48 字數 718 閱讀 3812

馬爾可夫決策過程(markov decision process, mdp)

在mdp中有一些常用的隨機策略

貪婪策略是乙個確定性策略,即只有在使得動作值函式最大的動作處取概率1,選其他動作的概率為0其中π∗(

a∣s)

=1, & \text q^*(s,a)$} \\ 0, & \text \end

π∗(a∣s

)=\quad

1−ϵ+∣a

(s)∣

ϵ​其他動作的概率為等概率,都為

ϵ ∣a

(s)∣

\frac \quad

∣a(s)∣

ϵ​ϵ-greedy平衡了利用(exploitation)和探索(exploration),其中選取動作值函式最大的部分為利用,其他非最優動作仍有概率為探索部分。

π ∗(

a∣s)

=\quad}, & \text q(s,a)$} \\ 0, & \text q(s,a)$} \end

π∗(a∣s

)=\quad

π(a∣s,

θ)=∑

b​ex

p(h(

s,b,

θ))e

xp(q

(s,a

,θ))

​其中q為動作值函式。該策略的含義是,動作值函式大的動作被選中的概 率大,動作值函式小的動作被選中的概率小。

概率分布的轉換

前段時間有幸讀到了 老師木的文章1,裡面在 乙個問題,為什麼在神經網路的節點上面使用的是sigmoid函式?其中談到乙個點 當知道x的概率密度為f x 時,什麼樣的函式h能把x變換成均勻分布的訊號?也可以是這樣的一道面試題 如何用c的庫函式rand 生成服從高斯分布或者 分布,or其他分布的隨機數?...

概率分布函式的關係框架

1 pmf probability mass function,pmf,概率質量函式 代表一組離散值的概率。從pmf到cdf cumulative distritution function,cdf,累積分布函式 是把概率值累加得到累積概率。從cdf到pmf,則計算累積概率之間的差值。2 pdf p...

幾種重要的概率分布(下)

這一篇中將介紹均勻分布 指數分布以及正態分佈。3 均勻分布 uniform 若隨機變數x的密度函式為 則稱隨機變數x服從區間 a,b 上的均勻分布。記作x u a,b 影象如下圖所示 均勻分布的分布函式為 影象如下圖所示 均勻分布的數學期望e x 1 2 b a 方差為d x 1 12 b a 2 ...