對偶學習與強化學習

2021-09-19 10:10:48 字數 511 閱讀 8589

參考:

實際上這個對偶遊戲和強化學習的過程比較類似。在強化學習中,我們希望提高我們的策略以最大化長遠的回報,但是沒有標註的樣本告訴我們在某個狀態x哪個動作y是正確的。我們只有通過使用這個策略在不同的狀態下執行不同的動作,觀測該動作帶來的回報,從而改善我們的策略。在以上這個翻譯對偶遊戲中,兩個翻譯模型就是我們的策略,因為沒有標註的雙語句對,所以我們不能直接改善它們。這個對偶遊戲把乙個沒有標註的句子x,先翻譯成另外一種語言的句子y1,再翻譯回來為x1,這裡x就是強化學習中的狀態,y1和x1就是我們的策略所執行的動作,x和x1的相似度就是我們獲得的回報。

我們可以用已有的強化學習的演算法來訓練我們這兩個翻譯模型,比如策略梯度方法。策略梯度方法的基本思想非常簡單:如果我們在執行某個動作之後,觀測到了乙個很大的回報,我們就通過調整策略(在當前策略函式的引數上加上它的梯度)來增加這個狀態下執行這個動作的概率;相反,如果我們在執行某個動作之後,觀測到了乙個很小的回報,甚至是負的回報,那麼我們就需要調整策略(在當前策略函式的引數上減去它的梯度),以降低在這個狀態下執行這個動作的概率。

強化學習 強化學習基礎

為了應對車載網路中通訊環境快速變化的難題,可以使用強化學習進行解決,這裡對強化學習的基礎進行整理。主要的應用場景為車載網路中資源分配問題。本文源自莫煩python 強化學習章節,有需要請查閱原文 20200413補充了一些內容,來自這篇部落格,是李巨集毅的深度強化學習的筆記。強化學習的主要構成有 a...

強化學習基礎 對偶梯度上公升

作者 jonathan hui 翻譯 史蒂芬 二狗子 校對 史蒂芬 二狗子 審核 莫青悠 整理 菠蘿妹 對偶梯度下降是乙個優化帶約束目標函式的常用方法。在強化學習中,該方法可以幫助我們做出更好的決策。對偶函式 g 是原始優化問題的下限,實際上,若 f 是凸函式,g和f保持強對偶關係,即g函式的最大值...

強化學習 1 1 0 強化學習介紹

abstract 本文介紹reinforcement learning的具體特點和與其他機器學習演算法不同之處,本文是乙個骨架性的文章,所有專有名詞都保持英文原始單詞,具體內容會在後續中給出詳細解答。keywords reinforcement learning,situation,action,e...