Policy Gradient （策略梯度演算法）

policy gradient （策略梯度演算法）前置基礎知識：

策略梯度演算法：直接根據當前的狀態來選擇動作。策略梯度的演算法是回合更新，在回合中的中每一步記錄狀態、動作、獎勵，在乙個回合完成以後，目標損失函式**回合中每步狀態的動作，與已執行的動作做交叉熵，如果乙個動作得到的獎勵多，那麼這個動作出現的概率增加，如果乙個動作得到的獎勵少，那麼這個動作出現的概率減小。

q learning演算法：基於值的強化學習演算法，單步更新，每一步都及時更新q表中的值。

策略梯度演算法

濤濤和策策的遊戲

傳送門博弈論的簡單應用，每次操作只能選擇乙個大於1的數字x，選擇x的乙個大於1的因數y，讓x變為x y，等價於可以從一堆石子中拿出任意個，我們只要把x的所有質因子求出來，即是濤濤和策策對於這堆石子最多能拿的個數。博弈論的原理可以看我的這篇部落格。include include using name...

Hyperledger Fabric 背書策略

背書策略是為了告知peer節點，交易是否被正確的背書。當peer接收到乙個交易到時候，它將會invoke與交易相關的chaincode的vscc validation system chaincode 作為交易驗證流的一部分，來驗證交易的有效性。recall that a transaction c...

hibernate oracle id 配置策略

如果在每張表只是配置generator為sequence則這些表會共用乙個sequence,這個sequence是hibernate會自己建立到oracle中，預設名稱為 hibernate sequence 這樣子會導致表中的id雖然唯一，但由於跟其他表共用，所以很多情況會出現不連續，看起來有點怪...

Policy Gradient （策略梯度演算法）

濤濤和策策的遊戲

Hyperledger Fabric 背書策略

hibernate oracle id 配置策略

相關推薦