Melatih dan mengevaluasi DeepRacer model AWS - AWS DeepRacer

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Melatih dan mengevaluasi DeepRacer model AWS

Saat DeepRacer kendaraan AWS Anda bergerak sendiri di sepanjang trek, kendaraan AWS menangkap kondisi lingkungan dengan kamera yang dipasang di bagian depan dan mengambil tindakan sebagai respons terhadap pengamatan. DeepRacerModel AWS Anda adalah fungsi yang memetakan pengamatan dan tindakan ke hadiah yang diharapkan. Melatih model Anda berarti menemukan atau mempelajari fungsi yang memaksimalkan penghargaan yang diharapkan sehingga model yang dioptimalkan menentukan tindakan apa (pasangan kecepatan dan sudut kemudi) yang dapat dilakukan kendaraan Anda untuk bergerak sendiri di sepanjang lintasan dari awal hingga akhir.

Dalam praktiknya, fungsi tersebut diwakili oleh jaringan neural dan pelatihan jaringan melibatkan pencarian bobot jaringan optimal yang diberikan urutan status lingkungan yang diamati dan tindakan kendaraan yang merespons. Kriteria yang mendasari optimalitas dijelaskan oleh fungsi penghargaan model yang mendorong kendaraan untuk melakukan langkah yang legal dan produktif tanpa menyebabkan kecelakaan atau pelanggaran lalu lintas. Fungsi penghargaan sederhana dapat mengembalikan penghargaan 0 jika kendaraan berada di lintasan, -1 jika keluar lintasan, dan +1 jika mencapai garis finis. Dengan fungsi penghargaan ini, kendaraan akan dikenakan sanksi karena keluar lintasan dan diberi penghargaan karena mencapai tujuan. Hal ini bisa menjadi fungsi penghargaan yang bagus jika waktu atau kecepatan tidak menjadi masalah.

Misalkan Anda tertarik untuk membuat kendaraan melaju secepat mungkin tanpa keluar dari lintasan lurus. Seiring kecepatan kendaraan naik dan turun, kendaraan dapat membelok ke kiri atau ke kanan untuk menghindari rintangan atau tetap berada di dalam. Belokan yang terlalu besar pada kecepatan tinggi dapat dengan mudah membuat kendaraan keluar jalur. Belokan yang terlalu kecil mungkin tidak dapat membantu menghindari tabrakan dengan rintangan atau kendaraan lain. Secara umum, tindakan optimal membuat belokan yang lebih besar pada kecepatan yang lebih rendah atau lebih sedikit gerakan di sepanjang tikungan yang lebih tajam. Untuk mendorong perilaku ini, fungsi penghargaan Anda harus menetapkan skor positif untuk menghargai putaran yang lebih kecil pada kecepatan yang lebih tinggi dan/atau skor negatif untuk hukuman putaran yang lebih besar pada kecepatan yang lebih tinggi. Demikian pula, fungsi penghargaan dapat mengembalikan penghargaan positif untuk mempercepat di lintasan yang lebih lurus atau mempercepat saat mendekati rintangan.

Fungsi hadiah adalah bagian penting dari DeepRacer model AWS Anda. Anda harus menyediakannya saat melatih DeepRacer model AWS Anda. Pelatihan ini melibatkan episode berulang di sepanjang lintasan dari awal hingga akhir. Dalam sebuah episode, agen berinteraksi dengan lintasan untuk mempelajari tindakan yang optimal dengan memaksimalkan penghargaan kumulatif yang diharapkan. Akhirnya, pelatihan menghasilkan model pembelajaran penguatan. Setelah pelatihan, agen mengeksekusi mengemudi sendiri dengan menjalankan inferensi pada model untuk mengambil tindakan optimal dalam status tertentu. Ini dapat dilakukan baik di lingkungan simulasi dengan agen virtual atau lingkungan dunia nyata dengan agen fisik, seperti kendaraan DeepRacer skala AWS.

Untuk melatih model pembelajaran penguatan dalam praktik, Anda harus memilih algoritme pembelajaran. Saat ini, DeepRacer konsol AWS hanya mendukung algoritma optimasi kebijakan proksimal (PPO) dan kritikus aktor lunak (SAC). Anda kemudian dapat memilih kerangka kerja deep learning yang mendukung algoritme yang dipilih, kecuali jika Anda ingin menulisnya dari scratch. AWS DeepRacer terintegrasi dengan SageMaker untuk membuat beberapa kerangka kerja deep-learning populer, seperti TensorFlow, tersedia di konsol AWS. DeepRacer Menggunakan kerangka kerja yang menyederhanakan konfigurasi dan pelaksanaan tugas pelatihan dan memungkinkan Anda berfokus pada pembuatan dan peningkatan fungsi penghargaan khusus untuk masalah Anda.

Pelatihan model pembelajaran penguatan adalah proses berulang. Pertama, sulit untuk mendefinisikan fungsi penghargaan untuk mencakup semua perilaku penting agen dalam suatu lingkungan sekaligus. Kedua, hyperparameter sering diatur untuk memastikan performa pelatihan yang memuaskan. Keduanya membutuhkan eksperimen. Pendekatan yang bijaksana adalah untuk memulai dengan fungsi penghargaan sederhana dan kemudian secara bertahap meningkatkannya. AWS DeepRacer memfasilitasi proses iteratif ini dengan memungkinkan Anda mengkloning model terlatih dan kemudian menggunakannya untuk memulai putaran pelatihan berikutnya. Pada setiap iterasi, Anda dapat memperkenalkan satu atau beberapa perawatan yang lebih canggih ke fungsi penghargaan untuk menangani variabel yang sebelumnya diabaikan atau Anda dapat menyesuaikan hiperparameter secara sistematis hingga hasilnya menyatu.

Seperti praktik umum dalam machine learning, Anda harus mengevaluasi model pembelajaran penguatan terlatih untuk memastikan kemanjurannya sebelum menerapkannya ke agen fisik untuk menjalankan inferensi dalam situasi dunia nyata. Untuk mengemudi sendiri, evaluasi dapat didasarkan pada seberapa sering kendaraan tetap berada di lintasan tertentu dari awal hingga akhir atau seberapa cepat dapat menyelesaikan lintasan tanpa keluar dari lintasan. DeepRacerSimulasi AWS memungkinkan Anda menjalankan evaluasi dan memposting metrik kinerja untuk perbandingan dengan model yang dilatih oleh DeepRacer pengguna AWS lain di papan peringkat.