Policy Gradient (策略梯度演算法)

2021-09-29 11:31:56 字數 367 閱讀 7351

policy gradient (策略梯度演算法)前置基礎知識:

策略梯度演算法:直接根據當前的狀態來選擇動作。策略梯度的演算法是回合更新,在回合中的中每一步記錄狀態、動作、獎勵,在乙個回合完成以後,目標損失函式**回合中每步狀態的動作,與已執行的動作做交叉熵,如果乙個動作得到的獎勵多,那麼這個動作出現的概率增加,如果乙個動作得到的獎勵少,那麼這個動作出現的概率減小。

q learning演算法:基於值的強化學習演算法,單步更新,每一步都及時更新q表中的值。

策略梯度演算法

濤濤和策策的遊戲

傳送門 博弈論的簡單應用,每次操作只能選擇乙個大於1的數字x,選擇x的乙個大於1的因數y,讓x變為x y,等價於可以從一堆石子中拿出任意個,我們只要把x的所有質因子求出來,即是濤濤和策策對於這堆石子最多能拿的個數。博弈論的原理可以看我的這篇部落格。include include using name...

Hyperledger Fabric 背書策略

背書策略是為了告知peer節點,交易是否被正確的背書。當peer接收到乙個交易到時候,它將會invoke與交易相關的chaincode的vscc validation system chaincode 作為交易驗證流的一部分,來驗證交易的有效性。recall that a transaction c...

hibernate oracle id 配置策略

如果在每張表只是配置generator為sequence則這些表會共用乙個sequence,這個sequence是hibernate會自己建立到oracle中,預設名稱為 hibernate sequence 這樣子會導致表中的id雖然唯一,但由於跟其他表共用,所以很多情況會出現不連續,看起來有點怪...