c. 強化/增強學習
離散 馬爾可夫模型
馬爾科夫鏈
馬爾可夫決策過程
動態規劃
貝爾曼方程
策略估計
策略改進
策略迭代
值迭代蒙特卡羅方法
時間差分法
隱馬爾可夫模
評估問題:前向後向演算法
解碼問題:維特比演算法(viterbi)
學習問題:前向後向演算法(baum-welch)
不完全可觀察馬爾可夫決策過程
蒙特卡洛方法
monte carlo learning
mc control
on-policy
off-policy
時序差分td
sarsa
q-learning
連續 值近似方法
value function
policy gradient
人工智慧 什麼是強化學習?
強化學習是人工智慧 ai 中討論最多 關注最多和考慮最多的話題之一,因為它有可能改變大多數企業。什麼是強化學習?強化學習的核心是乙個概念,即最佳的行為或行動是由積極的回報來強化的。機器和軟體 使用強化學習演算法,通過以環境的反饋為基礎來確定理想行為,這是機器學習的一種形式,也是人工智慧的乙個分支。根...
人工智慧簡史 人工智慧簡史
人工智慧簡史 在人工智慧的早期,計算機科學家試圖在計算機中重建人類思維的各個方面。這就是科幻 中的智力型別,即或多或少像我們一樣思考的機器。毫無疑問,這種型別的智慧型稱為可理解性。具有可理解性的計算機可用於探索我們如何推理,學習,判斷,感知和執行腦力活動。可懂度的早期研究集中於在計算機中對現實世界和...
人工智慧學習之路
1人工智慧基礎 高等數學必須會 資料分析 概率倫 gai lv lun 線性代數及矩陣 凸優化 tu you hua 微積分 wei ji feng 古典模型 逼近輪 牛頓法 梯度下降 python 高階應用 容器 容器淺拷貝和深拷貝 高階函式 lambda表示式 約瑟夫環問題 模組和高階包 時間庫...