機器學習之深度強化學習

2021-07-10 15:45:49 字數 650 閱讀 9969

機器學習最酷的分支應該算是深度學習(deeplearning)和強化學習(reinforcement learning)。

深度學習是一種機器學習中建模資料的隱含分布的多層表達的演算法。換句話來說,深度學習演算法自動提取分類中所需要的低層次或者高層次特徵。因此深度學習能夠更好的表示資料的特徵,同時由於模型的層次、引數很多,容量也足夠,因此,深度學習模型有能力表示大規模資料,所以對於影象、語音這種特徵不明顯的棘手問題,反而能夠借助深度學習在大規模訓練資料上取得更好的效果。而且由於深度學習將特徵和分類器結合到乙個框架中,用資料去學習特徵,在使用中減少了手工提取特徵的巨大工作量,因此,不僅僅效果可以更好,而且應用起來也非常方便。因此深度學習在影象識別和語音識別方面獲得了巨大的進步。

強化學習,其實,就是乙個連續決策的過程,其特點是不給任何資料做標註,僅僅提供乙個回報函式,這個回報函式決定當前狀態得到什麼樣的結果(比如「好」還是「壞」),從數學本質上來看,還是乙個馬爾科夫決策過程。強化學習最終目的是讓決策過程中整體的回報函式期望最優。

通過所謂的類似於人腦網狀結構的神經網路,深度學習是可以解決很多很實際的問題。例如谷歌的影象搜尋,facebook的人臉識別,skype的實時翻譯以及twitter的色情語言識別。強化學習則將深度學習又往前推進了一步,一旦你建立起了乙個玩遊戲的深度學習網路,你可以通過強化學習,讓它和自己進行比賽,自我進化。

深度強化學習

這是寫給自己看的,大佬請忽略 深度學習和其他機器學習演算法最大的不同在於如何找到特徵,而特徵的抽取過程就是乙個抽象的全過程。以往機器學習演算法的特徵抽取都是對一類問題有解,比如k means等聚類。深度學習抽象模擬了人類神經元傳遞和連線方式,理論上可以解決多種分類問題和 問題,甚至研究未知領域。深度...

深度強化學習

一 簡介 1 深度強化學習出現的原因 傳統的強化學習中當狀態和動作空間是離散且維數不高時可使用q table儲存每個狀態動作對的q值。然而比較複雜的 更加接近實際情況的任務則往往有著很大的狀態空間和連續的動作空間,這種情況下使用q table不現實。同時實現端到端的控制也是要求能處理高維的,如影象 ...

深度強化學習

強化學習 reinforcement learning 與深度學習同屬機器學習的範疇,是其中 一 個重要的分支,主要用來解決連續決策的問題。強化不像無監督學習那樣完全沒有學習目標,也不像監督學習那樣有非常明確的目標 如影象分類問題中的label 強化學習的目標是不明確的,模型只會向著能夠得到更多獎勵...