Policy based 強化學習中的幾種取樣方法

2022-05-07 01:15:11 字數 529 閱讀 3588

1.tf.random.categorical()

tf.random.categorical(tf.math.log([[0.5,0.5]]), 5)

out[26]:

前乙個引數是概率取log,後乙個是取樣次數,返回的是選中的動作位置,比如這裡0對應輸入概率矩陣[[0.5, 0.5]]中的第乙個,1對應第二個

2.np.random.choice(a, size=none, replace=true, p=none)

表示從a中隨機選取size個數

replace =true表示放回,vice versa

p表示每個元素被抽取的概率,如果沒有指定,a中所有元素被選取的概率是相等的。

由以上,a和p中的元素是存在一一對應的關係的,a填入單獨數字n時,預設取值範圍為[0, n)的整數

np.random.choice([1,2,3,4,5], 3, p=[0.1, 0, 0.3, 0.6, 0])

out[30]: array([4, 1, 4])

強化學習 強化學習基礎

為了應對車載網路中通訊環境快速變化的難題,可以使用強化學習進行解決,這裡對強化學習的基礎進行整理。主要的應用場景為車載網路中資源分配問題。本文源自莫煩python 強化學習章節,有需要請查閱原文 20200413補充了一些內容,來自這篇部落格,是李巨集毅的深度強化學習的筆記。強化學習的主要構成有 a...

強化學習 1 1 0 強化學習介紹

abstract 本文介紹reinforcement learning的具體特點和與其他機器學習演算法不同之處,本文是乙個骨架性的文章,所有專有名詞都保持英文原始單詞,具體內容會在後續中給出詳細解答。keywords reinforcement learning,situation,action,e...

強化學習系列1 強化學習簡介

2015年10月,alphago在和歐洲冠軍進行的圍棋賽上獲得了5 0的完勝,其後的深度強化學習也隨之火了起來。從本期開始開個新坑,一步步把強化學習的內容捋一遍。強化學習 reinforcement learning 是用來解決連續決策問題的一種方法。針對的模型是馬爾科夫決策過程 markov de...