多執行緒我的強化學習計畫

最近在編寫基於dpdk的使用者態協議棧，不斷完善不斷優化，在這個過程中發現自己有些知識還是不很完善，學習多執行緒程式設計的知識顯得迫在眉睫

其實我理解起來多執行緒主要學習一下

1。各種鎖之間的差別，並理出那些常見下用那些鎖是最優的；；

2。記憶體屏障與多核程式設計的特點。

其實知道記憶體屏障已經很久了，但是一直都懶沒有深入研究，所以先研究一下記憶體屏障，以及總結出多核程式設計的注意點：

如下步驟：

第一階段，把執行緒間的鎖理清楚。所有api封裝成可以呼叫的模組，有缺點記錄下來

第二階段、多核程式設計注意點，記憶體屏障

強化學習的資料

隨著deepmind和alphago的成功，強化學習 reinforcement learning 日益受到關注。然而，在一些機器學習入門課程中，並沒有專題討論強化學習。希望這個問題能夠成為知乎上對於強化學習嚴肅討論的乙個起點。也非常希望強化學習方面的研究者分享一下這個領域的研究現狀和展望。以下為一...

強化學習的DDPG

鏈結處理連續動作空間下，引數過多，運算過於複雜的問題。想象一下，乙個機械人每個時間步有7個動作，如腿胳膊等各個關節。你可以調整的是每個部位對應電機的電壓。先簡單看作每個動作有3個動作狀態，那麼每個時間步就對應有37 2187 3 7 2187 37 218 7個動作空間。如果將k這個數字更細粒度...

強化學習的學習筆記

感謝李巨集毅教授的講解！sample 函式在訓練過程中對應著樣本增廣的作用其實q learning的思想很簡單，就跟把大象放進冰箱是差不多的，基本的步驟是觀察環境，得到observation 根據obs查詢q 選擇q值最大的action 執行該動作。其實這兩種演算法的目標不同，導致了結果不同...

多執行緒 我的強化學習計畫

強化學習的資料

強化學習的DDPG

強化學習的學習筆記

相關推薦

多執行緒我的強化學習計畫