機器學習 深度學習和強化學習的關係和區別是什麼?

2021-10-04 21:40:40 字數 509 閱讀 9820

機器學習(ml:machine leaning):一切通過優化方法(線性回歸、邏輯回歸、決策樹、向量機、貝葉斯模型等)挖掘資料中規律的學科。

深度學習與強化學習都屬於機器學習的範疇;深度學習是有標籤、靜態的,多用於感知。強化學習是無標籤、動態的,多用於決策。

深度學習最廣泛的應用是影象處理和自然語言處理nlp了

強化學習實際應用目前還較窄,主要包括ai遊戲(如atari),推薦系統(如阿里家的),機械人控制相關(如ng的無人機飛行)

深度學習(dl:deep learning):一切運用了神經網路(深度神經網路dnn、卷積神經網路cnn、遞迴神經網路rnn、長期短期記憶lstm、生成敵對網路gan、轉移學習、注意模型)作為引數結構進行優化的機器學習演算法。

強化學習:不僅能利用現有資料,還可以通過對環境的探索獲得新資料,並利用新資料迴圈往復地更新迭代現有模型的機器學習演算法。學習是為了更好地對環境進行探索,而探索是為了獲取資料進行更好的學習。

深度強化學習:一切運用了神經網路作為引數結構進行優化的強化學習演算法。

機器學習之深度強化學習

機器學習最酷的分支應該算是深度學習 deeplearning 和強化學習 reinforcement learning 深度學習是一種機器學習中建模資料的隱含分布的多層表達的演算法。換句話來說,深度學習演算法自動提取分類中所需要的低層次或者高層次特徵。因此深度學習能夠更好的表示資料的特徵,同時由於模...

機器學習 強化學習

在環境中狀態的轉移 獎賞的返回是不受機器控制的,機器只能通過選擇要執行的動作來影響環境,也只能通過觀察轉移後的狀態和返回的獎賞來感知環境。離散狀態空間 離散動作空間 第 k 個搖臂第 n次嘗試之後平均獎賞 q0 k 0 qn k 1n n 1 qn 1 k vn qn k q n 1 k 1 n v...

機器學習 強化學習

目的 使乙個3關節 髖骨 膝蓋 腳踝 小人學會沿直線走路。方法 1 對於小人建模 2 使用3層人工神經網路訓練小人走路 3 對於每次訓練結果評估,獎懲神經網路調整權重。演示了乙個使用深度強化學習 deep deterministicpolicy gradient,ddpg 演算法控制仿人機械人運動的...