模仿學習(第四周)

2021-08-26 05:56:42 字數 489 閱讀 8768

在傳統的強化學習任務中,通常通過計算累積獎賞來學習最優策略(policy),這種方式簡單直接,而且在可以獲得較多訓練資料的情況下有較好的表現。然而在多步決策(sequential decision)中,學習器不能頻繁地得到獎勵,且這種基於累積獎賞及學習方式存在非常巨大的搜尋空間。而模仿學習(imitation learning)的方法經過多年的發展,已經能夠很好地解決多步決策問題,在機械人、 nlp 等領域也有很多的應用。

模仿學習概念

模仿學習是指從示教者提供的範例中學習,一般提供人類專家的決策資料,每個決策包含狀態和動作序列,將所有「狀態-動作對」抽取出來構造新的集合 。

之後就可以把狀態作為特徵(feature),動作作為標記(label)進行分類(對於離散動作)或回歸(對於連續動作)的學習從而得到最優策略模型。模型的訓練目標是使模型生成的狀態-動作軌跡分布和輸入的軌跡分布相匹配。從某種角度說,有點像自動編碼器(autoencoder)也與目前大火的 gans 很類似。

第四周學習

方法的結構 方法包括方法頭和方法體。方法頭包括方法的返回型別 有無 方法名稱和引數。方法體包括可執行 的語句序列。方法體內部的 執行 方法體是乙個塊。塊可以包含本地變數 控制流結構 方法呼叫 內嵌的塊。本地變數 用於儲存本地的或臨時的計算資料。存在性和生存週期僅限於建立他的塊及內嵌的塊。本地變數值型...

第四周學習

一 統計出 etc passwd檔案中其預設shell為非 sbin nologin的使用者個數,並將使用者都顯示出來 root centos7 echo 一共 cat etc passwd grep v sbin nologin wc l 個,分別是 cat etc passwd grep v s...

機器學習第四周

好,下面來總結一下學習內容。一開始就講了non linear hypothesis 非線性估計 這是當資料無法用簡單的線性模型處理的時候採用的方法,然後andrew就開始講神經網路了,這一周的內容沒有很詳細,就是大概地讓你知道一下神經網路,產生乙個初步的印象。還是先來把用到的符號交代了吧。符號含義 ...