AWS DeepRacer 概念和術語

AWS 以下列概念為DeepRacer基礎建置，並使用下列術語。

AWS DeepRacer 服務

AWS DeepRacer 是 AWS 機器學習服務，用於探索專注於自動競賽的強化學習。AWS DeepRacer 服務支援下列功能：

在雲端訓練強化學習模型。
在 AWS DeepRacer 主控台評估訓練過的模型。
如果合格，則向虛擬賽車提交經過訓練的模型，並將其效能發佈到事件排行榜。
複製訓練有素的模型以繼續訓練以改善效能。
下載訓練有素的模型成品，以上傳到 AWS DeepRacer 車輛。
將車輛放在供自動駕駛的實體賽道上，評估模型在真實世界的效能。
刪除您不需要的模型，以移除不必要的費用。

AWS DeepRacer

「AWSDeepRacer」可以指三種不同的車輛：

虛擬賽車可以採用原始 AWS DeepRacer 裝置、Evo 裝置或參加 AWS L DeepRacer eague 虛擬賽道競賽即可獲得的各種數位獎勵。您還可以通過更改其顏色來自定義虛擬汽車。
原始 AWS DeepRacer 裝置是 1/18 比例的實體模型車。其掛載相機並內建運算模組。運算模組會執行推論，以在軌道上駕駛自身。運算模組和車輛底盤由專用電池供電，分別稱為運算電池和駕駛電池。
AWS E DeepRacer vo 裝置是具有選購感測器套件的原始裝置。該套件包括一個額外的攝像頭和 LIDAR（光檢測和測距），使汽車可以檢測到自身後面和橫向的物體。該套件還包括一個新的外殼。

強化學習

強化學習是一種機器學習方法，專注於代理人的自主決策，以便通過與環境的互動來實現指定的目標。在強化學習中，學習是透過反覆嘗試進行且訓練不需要標記輸入。訓練依賴於獎勵假設，該假設認為，通過在行動序列之後最大化未來的獎勵，可以實現所有目標。在強化學習中，設計獎勵函數非常重要。精心設計的獎勵功能可讓代理商做出更好的決策。

對於自動駕駛賽車而言，代理程式就是車輛。該環境包含行駛路線和路況條件。目標是讓車輛在不發生車禍的情況下快速抵達目的地。獎勵是分數，用於鼓勵前往目的地的安全和迅速行駛。危險和沒有效率的駕駛行為會遭到扣分。

若要在訓練過程中鼓勵學習，必須允許學習代理程式偶爾追求不會產生獎勵的動作。這稱為探勘和開發折衷方案。這有助於降低或移除代理程式可能會受到誤導而前往虛假目的地的可能性。

如需更多正式定義，請參閱 Wikipedia 上的 reinforcement learning。

強化學習模型

強化學習模型是一種環境，其中代理程式的行為會建立三件事：代理程式具有的狀態、代理程式可以採取的動作，以及採取行動所獲得的獎勵。代理程式決定其動作的策略稱為原則。政策會將環境狀態當成要採取動作的輸入和輸出。在強化學習中，該政策通常由深度神經網絡表示。我們將此稱為強化學習模型。每個訓練任務都會產生一個模型。即使訓練任務提早停止，系統仍可以產生模型。模型為不可變，也就是一旦建立就無法再修改和覆寫。

AWS DeepRacer 模擬器

AWS DeepRacer 模擬器是用於視覺化培訓和評估 AWS 模DeepRacer型的虛擬環境。

AWS DeepRacer 車輛

請參閱 AWS DeepRacer。

AWS DeepRacer 汽車

這種類型的 AWS DeepRacer 車輛是 1/18 比例的模型車。

排行榜

排行榜是 AWS DeepRacer 聯賽賽事中 AWS DeepRacer 車輛表現的排名清單。賽車可以是在模擬環境中實現的虛擬事件，或在真實世界環境中實現的實體事件。效能指標取決於競賽類型。它可以是 AWS DeepRacer 使用者提交的最快圈速、總時間或平均圈速，這些使用者已在賽道上評估訓練過的模型，與比賽的指定賽道相同或類似。

如果車輛連續完成三圈，便有資格在排行榜上排名。前三圈的平均一圈時間會提交至排行榜。

機器學習架構

機器學習架構是用來建置機器學習演算法的軟體程式庫。AWS 支援的架構DeepRacer包括張量流。

政策網路

政策網路是已訓練的神經網路。此政策網路會將影片影像做為輸入，並預測代理程式的下一個動作。根據演算法而定，可能也會評估代理程式的目前狀態值。

最佳化演算法

最佳化演算法是用於訓練模型的演算法。對於受監督的訓練，其會透過將特定策略的損失函數降至最低來更新權重，來最佳化演算法。對於強化學習而言，其會透過將特定獎勵函數的預期未來獎勵最大化，來最佳化演算法。

類神經網路

神經網路 (也稱為人工神經網路) 是連線單元或節點的集合，用於建立以生物系統為基礎的資訊模型。每個節點稱為人工神經元，並模仿生物神經元，因為它接收輸入（刺激），如果輸入信號足夠強（激活），則會激活，並產生根據輸入和激活預測的輸出。廣泛用於機器學習，因為人工類神經網路可以提供近似於任何函數的一般用途。教學機器學習變成為找到給定輸入和輸出的最佳函數近似值。在深度強化學習中，類神經網路代表政策，且通常稱為政策網路。訓練原則網路相當於逐步執行涉及根據目前原則產生體驗的步驟，然後使用新產生的體驗最佳化原則網路。此程序一直持續，直到某些效能指標滿足必要的條件。

超參數

超參數是演算法相關的變數，可控制神經網路訓練的效能。超參數範例是學習速率，可控制在每個步驟中學習中計算多少新體驗。較高的學習速率會導致更快的訓練，但可能會降低訓練模型的品質。超參數來自經驗，每個訓練都需要系統化調校。

AWS DeepRacer 追蹤

軌道是 AWS DeepRacer 車輛駕駛的路徑或路線。軌道可以存在於模擬環境或真實世界的實體環境中。您可以使用模擬環境在虛擬軌道上訓練 AWS DeepRacer 模型。AWS 主DeepRacer控台提供虛擬曲目可用。您可以使用真實環境在實體軌道上執行 AWS DeepRacer 車輛。AWS DeepRacer 聯盟提供活動參與者競爭的實體賽道。如果您想要在任何其他情況下執行 AWS DeepRacer 車輛，則必須建立自己的實體軌跡。若要深入瞭解如何建立自己的軌跡，請參閱建立自己的實體軌跡。

獎勵函數

獎勵函數是學習模型中的一種算法，可告訴代理程式執行的動作是否導致：

應該予以強化的良好結果。
中性結果。
不應該鼓勵的不良結果。

獎勵函數是強化學習的重要元件。其可透過給予特定動作優於其他動作的獎勵，以決定代理程式會學習的行為。使用者使用 Python 來提供獎勵函數。這個獎勵函數由最佳化演算法用來訓練強化學習模型。

體驗回合

體驗集是指代理程式從指定起點執行到完成軌跡或離開軌道，從環境收集體驗做為訓練資料的時期。不同的回合可以有不同的長度。這也被稱為一個劇集或經驗產生的情節。

重複體驗

體驗版序 (也稱為產生體驗的版序) 是執行原則網路權重更新之每個原則迭代之間的一組連續體驗。在每次體驗重複結束時，收集到的回合會新增到體驗重新執行或緩衝。大小可以在訓練的超參數之一中設置。並使用體驗的隨機樣本來更新類神經網路。

重複政策

原則反覆運算 (也稱為原則更新反覆運算) 是透過隨機取樣訓練資料的任意次數，以便在漸層上升期間更新原則神經網路權重。通過訓練數據以更新權重的單次傳遞也稱為時代。

訓練工作

訓練工作是一種工作負載，可訓練強化學習模型，並建立經過訓練的模型加工品，以便在其上執行推論。每個訓練工作都有兩個子程序：

啟動代理程式以遵循目前的政策。代理程式在多種回合下探索環境，並建立訓練資料。產生資料本身就是一個重複的過程。
套用新的訓練資料來計算新的政策梯度。更新網路權重並繼續訓練。重複步驟 1，直到符合停止條件。

每項訓練任務都會產生經過訓練的模型，並將模型成品輸出到指定的資料存放區。

評估工作

評估工作是測試模型效能的工作負載。效能會在訓練工作完成後，透過指定指標進行測量。標準 AWS DeepRacer 效能指標是代理程式在賽道上完成一圈所需的驅動時間。另一個指標則是完成圈數的百分比。

賽車活動術語

AWS DeepRacer 賽車活動使用下列概念和術語。

聯盟/競賽: 在 AWS L DeepRacer eague 活動的情況下，聯賽和競爭的術語與競爭結構有關。 AWS贊助 AWS DeepRacer 聯盟，這意味著我們擁有它、設計和執行它。競賽有開始和結束日期。
賽季: 競賽可以在後續幾年重複。我們稱這些不同的賽季 (例如 2019 年或 2020 年賽季)。規則可能會隨賽季變化，但通常在賽季內保持一致。AWS DeepRacer 聯賽的條款和條件可能因季節而異。
虛擬電路: 虛擬賽道是指 AWS 聯賽賽季期AWS間在 AWS DeepRacer 主控台中所贊助的比DeepRacer賽。
事件: 根據規則所定義，活動是您可以在其中參與競賽的 AWS DeepRacer 聯盟賽事。賽事有開始和結束日期。虛擬電路事件通常持續一個月。一個賽季中可能會有很多賽事，而某些規則（例如我們如何對參加賽事的人進行排名，選擇誰獲勝以及之後發生的事情）可能會發生變化。
賽車類型: 所有車手都可以參加計時賽（TT），避免對象（OA）或head-to-bot（H2B）比賽。每種比賽類型將指定圈數以及賽車手的排名方式。
國家季節站: 全國賽季排名是指賽車手在其國家/地區的其他賽車手中的排行榜排名。所有賽車手都可以在每月的虛擬比賽中與其他國家的賽車手競爭。
地區季節站: 地區賽季排名是指賽車手在其所在地區的其他車手中的排行榜排名。
世界錦標賽: AWS L DeepRacer eague 的虛擬巡迴賽每月排行榜按國家和地區劃分。來自各地區的頂尖車手將有機會參加 AWS Re: Invent 世界錦標賽的資格。如需詳細資訊，請參閱條款與條件。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

探索強化學習

運作方式