TORCS無人駕駛筆記

2021-08-06 02:10:38 字數 1143 閱讀 1508

我們這裡使用了環境狀態作為輸入。使用deep q-learning做為學習演算法學習。環境獎勵定義為在單位時刻車輛沿跑道的前進距離。另外,如果車出了跑道或者和其他的車輛相撞,會得到額外懲罰。環境狀態包括車輛的速度、加速度、離跑道的左右邊緣的距離,以及跑道的切線夾角,在各個方向上最近的車的距離等等。車的行為包括向上換擋、向下換擋、加速、減速、向左打方向盤、向右打方向盤等等。

與普通的deep q-learning相比,我們做了以下的改進。首先,使用了多步td演算法進行更新。多步td演算法能比單步演算法每次學習時看到更多的執行部數,因此也能更快地收斂。其次,我們使用了actor-critic的架構。它把演算法的策略函式和值函式分別使用兩個網路表示。這樣的表示有兩個優點:1. 策略函式可以使用監督學習的方式進行初始化學習。2. 在環境比較複雜的時候,學習值函式非常的困難。把策略函式和值函式分開學習可以降低策略函式學習的難度。

使用了改進後的deep q-learning演算法,我們學習到的策略在torcs中可以實現沿跑到行走,換道,超車等行為。基本達到了torcs環境中的基本駕駛的需要。google deepmind直接使用影象作為輸入,也獲得了很好的效果,但訓練的過程要慢很多。

現有的增強學習演算法在自動駕駛模擬環境中獲得了很有希望的結果。但是可以看到,如果需要增強學習真正能夠在自動駕駛的場景下應用,還需要有很多改進。第乙個改進方向是增強學習的自適應能力。現有的增強學習演算法在環境性質發生改變時,需要試錯很多次才能學習到正確的行為。而人在環境發生改變的情況下,只需要很少次試錯就可以學習到正確的行為。如何只用非常少量樣本學習到正確的行為是增強學習能夠實用的重要條件。

第二個重要的改進方向是模型的可解釋性。現在增強學習中的策略函式和值函式都是由深度神經網路表示的,其可解釋性比較差,在實際的使用中出了問題,很難找到原因,也比較難以排查。在自動駕駛這種人命關天的任務中,無法找到原因是完全無法接受的。

第三個重要的改進方向是推理和想象能力。人在學習的過程中很多時候需要有一定的推理和想象能力。比如,在駕駛時,不用親身嘗試,也知道危險的行為會帶來毀滅性的後果。 這是因為人類對這個世界有乙個足夠好的模型來推理和想象做出相應行為可能會發生的後果。這種能力不僅對於存在危險行為的環境下下非常重要,在安全的環境中也可以大大加快收斂速度。

只有在這些方向做出了實質突破,增強學習才能真正使用到自動駕駛或是機械人這種重要的任務場景中。希望更多有志之士能投身這項研究,為人工智慧的發展貢獻出自己的力量。

無人駕駛汽車

無人駕駛汽車是智慧型汽車的一種,也稱為輪式移動機械人,主要依靠車內的以計算機系統為主的智慧型駕駛儀來實現無人駕駛的目標。據湯森路透智財權與科技最新報告顯示,2010年到 2015年間,與汽車無人駕駛技術相關的發明專利超過22,000件,並且在此過程中,部分企業已嶄露頭角,成為該領域的行業領導者。無人...

初識無人駕駛

無人駕駛是多個技術的整合,其中包羅感測器,深度學習,定位,路徑規劃,障礙物檢測與規避,機械控制,系統的整合與優化,高精度地圖,其中gps用於定位,光學雷達用於定位和障礙物檢測,照相機用於深度學習物體識別,以及定位輔助。感測器獲取資料後,首先利用卡爾曼濾波或粒子濾波器,對感測器資訊進行融合,並得出最大...

低速無人駕駛

低速無人駕駛 現狀 感知層 決策層 控制層。過去在無人駕駛的技術落地問題上,業內大多討論的是端對端的控制問題,但在實際場景下,低速無人駕駛要解決的是複雜的動態全流程問題。因此如何通過人工智慧或者深度學習的方法解決感知 決策和控制的全流程問題,是目前技術發展上的乙個難點。感測方案從雷射感知進一步拓展到...