Udacity無人駕駛課程筆記感知

對計算機而言，影象只有紅色、藍色和藍色值的集合。無人駕駛有四個感知世界的核心任務：檢測、分類、跟蹤、語義分割。

檢測：找出物體在環境中的位置；

分類：指明物件是什麼；

跟蹤：指隨時間推移觀測移動的物體（如行人、車輛）；

語義分割：將特許骯髒的每乙個畫素與語義類別進行匹配。

攝像頭影象是最常見的計算機視覺資料，影象中的每乙個畫素只是乙個值，這些值構成影象矩陣，可以改變畫素的值，比如新增乙個標量整數改變影象亮度。

彩色影象被構建為值的三維立方體，每個立方體都有高度、寬度和深度，深度為顏色通道數，rgb影象深度為3。

雷射雷達感測器建立環境的點雲表徵，提供攝像頭難以獲取的距離或者高度資訊。雷射點雲可以提高物體許多資訊，比如其形狀和表面紋理，通過對點進行聚類和分析，能通過物件檢測、跟蹤或分類資訊。

機器學習涉及使用資料與相關的真值標記來進行模型訓練。

監督學習：提供真值資料；

無監督學習：不提供真值資料；

半監督學習：提供少量真值和大量未標記資料；

強化學習：允許模型通過嘗試許多不同的方法來解決問題，然後權衡哪種方法最成功。

人工神經網路是通過資料來學習複雜模式的工具，神經網路由大量的神經元組成，人工神經網路負責傳遞和處理資訊，也可對神經元進行訓練。

乙個訓練週期包含三部分：前饋、誤差測定和反向傳播。首先隨機分配權重值，即神經元，通過神經網路來饋送每個影象，產生輸出值，稱之為前饋；誤差是真值標定與前饋過程所產生輸出之間的偏差；反向傳播通過神經網路反向傳送誤差。

cnn屬於神經網路中的一種，接收多維輸入，包含大多數感測器資料的二維和三維形狀。cnn通過將過濾器連續劃過影象收集資訊，每次收集資訊時，只對整個影象的一小部分區域進行分析，這稱為「卷積」。

首先使用檢測cnn來查詢影象中物件的位置，然後將影象傳送給另乙個cnn進行分類，也可以使用單一的cnn體系結果對物件進行檢測和分類。

追蹤在檢測失敗時至關重要，追蹤可以解決被遮擋問題，另外的原因是可以保留身份，障礙物檢測的輸出為包含物件的邊界框。

追蹤的第一步是通過查詢特徵相似度最高的物件，將之前幀檢測到的所有物件與當前幀中檢測到的物件進行匹配；確定使用物件的位置並結合**演算法，以估計在下乙個時間步的速度和位置，該**可識別下一幀中的相應物件。

語義分割涉及到對影象的每個畫素進行分類，作用是盡可能詳細地了解環境，並確定車輛的可行駛區域。語義分割依賴依賴於一種特殊型別的cnn，被稱為全卷積網路或fcn。

Udacity無人駕駛課程筆記 感知