深度強化學習day01初探強化學習

因此，強化學習實際上是智慧型體在與環境進行互動的過程中，學會最佳決策序列。

先驗知識與標註資料

強化學習不需要像監督學習那樣依賴先驗知識資料，它通過自我博弈的方式產生更多的標準資料。強化學習可以利用較少的訓練資訊，讓系統自主學習補充更多資訊使整個系統不受標註資料和先驗知識的限制。

拿圍棋遊戲來說，圍棋的棋譜資料很容易獲得，這些資料都是人類玩家的動作行為記錄。如果利用監督學習模型建模，模型模擬出的對弈技能很有可能只侷限在所收集的有限棋譜內。當出現新的下棋方式時，模型可能就因為找不到全域性最優解而棋力大減。強化學習模型則不同，它可以利用系統自我學習和獎勵的方式，讓系統自動學習更多棋譜或者進行智慧型體間的博弈，這樣可以為系統補充更多棋譜資訊，進而免受監督者的限制。

深度強化學習day01初探強化學習

深度強化學習day01初探強化學習

深度強化學習

深度強化學習

相關推薦