看了好幾遍也沒看懂dqn
neural network模擬q-value function可以只將state作為輸入,輸出為各個q(state,action)的值。平行計算各個動作,高效。
流程實在看不懂。。。
policy gradient的更新過程跳過,李巨集毅那篇有講
最簡單的base line就是將各個trajectory的總reward平均化
base line可以用q value function 減去 value function!這不就是乙個動作的價值嗎!
但是我們不知道q和v,怎麼辦,學啊!
recurrent attention model 可用於fine-grained分類,節約計算量
第十四講 模組
1.模組 模組化指將乙個完整的程式分解成乙個個的小模組 通過將模組組合,來搭建出乙個完整的程式 模組化的優點 方便開發 方便維護 模組可以復用 模組的建立 在python當中乙個py檔案就是乙個模組 在乙個模組中引入外部模組 import模組名 模組名就是py檔案 可以引入同乙個模組多次,但是模組的...
機器學習基石第十四講筆記
lecture 14 regularization 規則化 14 1 規則化假說集 regularization the magic 從多次的hypothesis set走回到低次的hypothesis set,避免了overfit的發生。ill posed problems 指有很多的函式都滿足s...
C 銳利體驗 第十四講 列舉
第十四講 列舉 列舉型別是c 中又一種輕量級的值型別,c 用列舉來表達一組特定的值的集合行為,比如windows窗體可選的狀態,按鈕控制項的風格等。下面的程式偽碼展示了典型的列舉用法 public enum writingstyle class essay 注意上面的列舉符號classical,mo...