第十四講深度增強學習課時33

看了好幾遍也沒看懂dqn

neural network模擬q-value function可以只將state作為輸入，輸出為各個q(state,action)的值。平行計算各個動作，高效。

流程實在看不懂。。。

policy gradient的更新過程跳過，李巨集毅那篇有講

最簡單的base line就是將各個trajectory的總reward平均化

base line可以用q value function 減去 value function！這不就是乙個動作的價值嗎！

但是我們不知道q和v，怎麼辦，學啊！

recurrent attention model 可用於fine-grained分類，節約計算量

第十四講模組

1.模組模組化指將乙個完整的程式分解成乙個個的小模組通過將模組組合，來搭建出乙個完整的程式模組化的優點方便開發方便維護模組可以復用模組的建立在python當中乙個py檔案就是乙個模組在乙個模組中引入外部模組 import模組名模組名就是py檔案可以引入同乙個模組多次，但是模組的...

機器學習基石第十四講筆記

lecture 14 regularization 規則化 14 1 規則化假說集 regularization the magic 從多次的hypothesis set走回到低次的hypothesis set，避免了overfit的發生。ill posed problems 指有很多的函式都滿足s...

C 銳利體驗第十四講列舉

第十四講列舉列舉型別是c 中又一種輕量級的值型別，c 用列舉來表達一組特定的值的集合行為，比如windows窗體可選的狀態，按鈕控制項的風格等。下面的程式偽碼展示了典型的列舉用法 public enum writingstyle class essay 注意上面的列舉符號classical,mo...

第十四講 深度增強學習 課時33

第十四講 模組

機器學習基石第十四講筆記

C 銳利體驗 第十四講 列舉

相關推薦

第十四講深度增強學習課時33

第十四講模組

C 銳利體驗第十四講列舉