DeepRacerKonsep dan terminologi AWS - AWS DeepRacer

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

DeepRacerKonsep dan terminologi AWS

AWS DeepRacer membangun konsep berikut dan menggunakan terminologi berikut.

DeepRacerLayanan AWS

AWS DeepRacer adalah layanan AWS Machine Learning untuk mengeksplorasi pembelajaran penguatan yang berfokus pada balap otonom. DeepRacerLayanan AWS mendukung fitur-fitur berikut:

  1. Melatih model pembelajaran penguatan di cloud.

  2. Evaluasi model terlatih di DeepRacer konsol AWS.

  3. Kirim model terlatih untuk balapan virtual dan, jika memenuhi syarat, performanya diposting ke papan peringkat peristiwa.

  4. Kloning model terlatih untuk melanjutkan pelatihan untuk peningkatan performa.

  5. Unduh artefak model terlatih untuk diunggah ke kendaraan AWSDeepRacer.

  6. Tempatkan kendaraan di jalur fisik untuk mengemudi sendiri dan evaluasi model untuk pertunjukan di dunia nyata.

  7. Hapus biaya yang tidak diperlukan dengan menghapus model yang tidak Anda perlukan.

AWS DeepRacer

“AWSDeepRacer" dapat merujuk ke tiga kendaraan yang berbeda:

  • Mobil balap virtual dapat berupa DeepRacer perangkat AWS asli, perangkat Evo, atau berbagai hadiah digital yang dapat diperoleh dengan berpartisipasi dalam balapan Sirkuit Virtual AWS DeepRacer League. Anda juga dapat menyesuaikan mobil virtual dengan mengubah warnanya.

  • DeepRacerPerangkat AWS asli adalah mobil model skala 1/18 fisik. Perangkat ini memiliki kamera terpasang dan modul komputasi terpasang. Modul komputasi menjalankan inferensi untuk mengemudikan dirinya sendiri di sepanjang lintasan. Modul komputasi dan sasis kendaraan didukung oleh baterai khusus yang masing-masing dikenal sebagai baterai komputasi dan baterai penggerak.

  • Perangkat AWS DeepRacer Evo adalah perangkat asli dengan kit sensor opsional. Kit ini mencakup kamera tambahan dan LIDAR (light detection and ranging), yang memungkinkan mobil mendeteksi benda di belakang dan di sisi kanan kiri. Kit ini juga termasuk sarung baru.

Pembelajaran penguatan

Pembelajaran penguatan adalah metode machine learning yang difokuskan pada pengambilan keputusan otonom oleh agen untuk mencapai tujuan yang ditentukan melalui interaksi dengan lingkungan. Dalam pembelajaran penguatan, pembelajaran dicapai melalui banyak percobaan dan pelatihan tidak memerlukan input berlabel. Pelatihan bergantung pada hipotesis penghargaan, yang menyatakan bahwa semua tujuan dapat dicapai dengan memaksimalkan penghargaan di masa mendatang setelah urutan tindakan. Dalam pembelajaran penguatan, penting untuk merancang fungsi penghargaan. Fungsi hadiah yang dibuat dengan lebih baik menghasilkan keputusan yang lebih baik oleh agen.

Untuk balapan otonom, agennya adalah sebuah kendaraan. Lingkungan mencakup rute perjalanan dan kondisi lalu lintas. Tujuannya agar kendaraan dapat mencapai destinasi dengan cepat tanpa kecelakaan. Penghargaan adalah nilai yang digunakan untuk mendorong perjalanan yang aman dan cepat ke destinasi tujuan. Skor menghukum pengemudian yang berbahaya dan yang boros.

Untuk mendorong pembelajaran selama pelatihan, agen pembelajaran harus diizinkan untuk kadang melakukan tindakan yang mungkin tidak menghasilkan penghargaan. Hal ini disebut sebagai eksplorasi dan eksploitasi trade-off. Ini membantu mengurangi atau menghapus kemungkinan bahwa agen mungkin tersesat ke destinasi yang salah.

Untuk definisi yang lebih formal, lihat pembelajaran penguatan di Wikipedia.

Model pembelajaran penguatan

Model pembelajaran penguatan adalah lingkungan yang mana tindakan agen menetapkan tiga hal: status yang dimiliki agen, tindakan yang dapat diambil oleh agen, dan penghargaan yang diterima dengan mengambil tindakan. Strategi tindakan yang diputuskan oleh agen disebut sebagai kebijakan. Kebijakan mengambil status lingkungan sebagai input dan output pengambilan tindakan. Dalam pembelajaran penguatan, kebijakan ini sering direpresentasikan oleh jaringan neural yang dalam. Kami menyebut ini sebagai model pembelajaran penguatan. Setiap tugas pelatihan menghasilkan satu model. Sebuah model dapat dihasilkan bahkan jika tugas pelatihan dihentikan lebih awal. Sebuah model tidak bisa diubah, yang berarti tidak dapat dimodifikasi dan ditimpa setelah model dibuat.

DeepRacerSimulator AWS

DeepRacerSimulator AWS adalah lingkungan virtual untuk memvisualisasikan pelatihan dan mengevaluasi model AWSDeepRacer.

DeepRacerKendaraan AWS

Lihat AWS DeepRacer.

DeepRacerMobil AWS

Jenis DeepRacerkendaraan AWS ini adalah mobil model skala 1/18.

Papan Peringkat

Papan peringkat adalah daftar peringkat kinerja DeepRacer kendaraan AWS dalam acara balap Liga AWSDeepRacer. Perlombaan bisa berbentuk peristiwa virtual yang dilakukan di lingkungan simulasi, atau peristiwa fisik yang dilakukan di lingkungan dunia nyata. Metrik performa tergantung pada jenis balapan. Ini bisa menjadi waktu putaran tercepat, total waktu, atau waktu putaran rata-rata yang dikirimkan oleh DeepRacer pengguna AWS yang telah mengevaluasi model terlatih mereka di trek yang identik atau mirip dengan trek balapan yang diberikan.

Jika kendaraan menyelesaikan tiga putaran berturut-turut, maka kendaraan tersebut memenuhi syarat untuk berada di peringkat pada papan peringkat. Rata-rata waktu putaran untuk tiga putaran pertama berturut-turut diserahkan ke papan peringkat.

Kerangka kerja machine learning

Kerangka kerja machine learning adalah pustaka perangkat lunak yang digunakan untuk membangun algoritme machine learning. Framework yang didukung untuk AWS DeepRacer termasuk Tensorflow.

Kebijakan jaringan

Jaringan kebijakan adalah jaringan neural yang sudah dilatih. Jaringan kebijakan mengambil gambar video sebagai input dan memprediksi tindakan berikutnya untuk agen. Tergantung pada algoritme, Jaringan kebijakan juga dapat mengevaluasi nilai keadaan saat ini dari agen.

Algoritme optimalisasi

Algoritme optimasi adalah algoritme yang digunakan untuk melatih model. Untuk pelatihan yang diawasi, algoritme dioptimalkan dengan meminimalkan fungsi kerugian dengan strategi tertentu untuk memperbarui bobot. Untuk pembelajaran penguatan, algoritme dioptimalkan dengan memaksimalkan penghargaan masa depan yang diharapkan dengan fungsi penghargaan tertentu.

Jaringan neural

Jaringan neural (juga dikenal sebagai jaringan neural buatan) adalah kumpulan unit atau simpul yang terhubung yang digunakan untuk membangun model informasi berdasarkan sistem biologis. Setiap simpul disebut neuron buatan dan meniru neuron biologis karena menerima masukan (stimulus), menjadi aktif jika sinyal input cukup kuat (aktivasi), dan menghasilkan output yang diprediksikan pada input dan aktivasi. Ini banyak digunakan dalam machine learning karena jaringan neural buatan dapat berfungsi sebagai pendekatan tujuan umum untuk fungsi apa pun. Mengajar mesin untuk belajar menemukan pendekatan fungsi yang optimal untuk input dan output yang diberikan. Dalam pembelajaran penguatan yang mendalam, jaringan neural direpresentasikan sebagai kebijakan dan sering disebut sebagai jaringan kebijakan. Melatih jumlah jaringan kebijakan hingga iterasi melalui langkah-langkah yang melibatkan penghasilan pengalaman berdasarkan kebijakan saat ini, diikuti dengan pengoptimalan jaringan kebijakan dengan pengalaman yang baru dihasilkan. Proses berlanjut hingga metrik performa tertentu memenuhi kriteria yang diperlukan.

Hyperparameter

Hyperparameter adalah variabel yang bergantung pada algoritme yang mengontrol performa dari pelatihan jaringan neural. Contoh hyperparameter adalah tingkat pembelajaran yang mengontrol berapa banyak pengalaman baru yang dihitung dalam pembelajaran di setiap langkah. Tingkat pembelajaran yang lebih besar menghasilkan pelatihan yang lebih cepat tetapi dapat membuat model terlatih berkualitas rendah. Hyperparameter bersifat empiris dan memerlukan penyetelan sistematik untuk setiap latihan.

DeepRacerTrek AWS

Trek adalah jalur atau jalur yang dikendarai DeepRacer kendaraan AWS. Lintasan dapat berupa lingkungan simulasi atau di dunia nyata, lingkungan fisik. Anda menggunakan lingkungan simulasi untuk melatih DeepRacer model AWS di trek virtual. DeepRacerKonsol AWS membuat trek virtual tersedia. Anda menggunakan lingkungan dunia nyata untuk menjalankan DeepRacer kendaraan AWS di jalur fisik. DeepRacerLiga AWS menyediakan trek fisik bagi peserta acara untuk bersaing. Anda harus membuat trek fisik Anda sendiri jika Anda ingin menjalankan DeepRacer kendaraan AWS Anda dalam situasi lain. Untuk mempelajari selengkapnya tentang cara membuat lintasan Anda sendiri, lihat Bangun Lintasan Fisik Anda.

Fungsi penghargaan

Fungsi penghargaan adalah algoritme dalam model pembelajaran yang memberitahu agen apakah tindakan yang dilakukannya mengakibatkan:

  • Hasil yang bagus yang harus diperkuat.

  • Hasil yang netral.

  • Hasil yang buruk yang harus ditangguhkan.

Fungsi penghargaan adalah bagian penting dari pembelajaran penguatan. Ini menentukan perilaku yang dipelajari agen dengan memberi insentif pada tindakan tertentu atas yang lain. Pengguna menyediakan fungsi penghargaan dengan menggunakan Python. Fungsi penghargaan ini digunakan oleh algoritme pengoptimalan untuk melatih model pembelajaran penguatan.

Episode pengalaman

Episode pengalaman adalah periode saat agen mengumpulkan pengalaman sebagai data pelatihan dari lingkungan dengan berjalan dari titik awal yang diberikan ke garis akhir atau keluar dari lintasan. Episode yang berbeda dapat memiliki panjang yang berbeda. Hal ini juga disebut sebagai episode atau episode penghasil pengalaman.

Pengalaman iterasi

Pengalaman iterasi (juga dikenal sebagai penghasil pengalaman iterasi) adalah serangkaian pengalaman berturut-turut antara setiap kebijakan iterasi yang melakukan pembaruan dari bobot kebijakan jaringan. Pada akhir setiap pengalaman iterasi, episode yang terkumpul ditambahkan ke pengalaman pemutaran ulang atau buffer. Ukurannya bisa diatur di salah satu hyperparameter untuk latihan. Jaringan neural diperbarui dengan menggunakan sampel acak dari pengalaman.

Iterasi kebijakan

Iterasi kebijakan (juga dikenal sebagai iterasi pemutakhiran kebijakan) adalah sejumlah nomor yang lewat melalui data pelatihan sampel acak untuk memperbarui bobot jaringan neural kebijakan selama pendakian gradien. Satu nomor yang lewat melalui data pelatihan untuk memperbarui bobot juga dikenal sebagai epoch.

Tugas pelatihan

Tugas pelatihan adalah beban kerja yang melatih model pembelajaran penguatan dan menciptakan artefak model terlatih untuk menjalankan inferensi. Setiap tugas pelatihan memiliki dua subproses:

  1. Mulai agen untuk mengikuti kebijakan saat ini. Agen mengeksplorasi lingkungan di sejumlah episode dan membuat data pelatihan. Generasi data ini merupakan proses berulang itu sendiri.

  2. Terapkan data pelatihan baru untuk menghitung gradien kebijakan baru. Memperbarui bobot jaringan dan melanjutkan pelatihan. Ulangi langkah 1 sampai kondisi berhenti terpenuhi.

Setiap tugas pelatihan menghasilkan model terlatih dan output artefak model ke penyimpanan data tertentu.

Tugas evaluasi

Tugas evaluasi adalah beban kerja yang menguji performa model. Performa diukur dengan metrik yang diberikan setelah tugas pelatihan selesai. Metrik DeepRacer kinerja AWS standar adalah waktu mengemudi yang dibutuhkan agen untuk menyelesaikan putaran di trek. Metrik lainnya adalah persentase putaran yang selesai.

Terminologi acara balap

Acara DeepRacer balap AWS menggunakan konsep dan terminologi berikut.

Liga/Kompetisi

Dalam konteks acara DeepRacer Liga AWS, istilah liga dan kompetisi terkait dengan struktur kompetisi. AWSmensponsori DeepRacer Liga AWS, yang berarti kami memilikinya, mendesainnya, dan menjalankannya. Sebuah kompetisi memiliki tanggal dimulai dan tanggal berakhir.

Musim

Sebuah kompetisi bisa diulang di tahun-tahun berikutnya. Kami menyebutnya sebagai musim-musim yang berbeda (misalnya, musim 2019 atau musim 2020). Aturan dapat berubah dari musim ke musim, tetapi biasanya konsisten dalam satu musim. Syarat dan ketentuan untuk DeepRacer Liga AWS dapat bervariasi dari musim ke musim.

Sirkuit Virtual

Sirkuit Virtual mengacu pada balapan yang disponsori dengan AWS terjadi di DeepRacer konsol AWS selama musim DeepRacer Liga AWS.

Peristiwa

Sebagaimana didefinisikan oleh aturan, acara adalah kejadian DeepRacer Liga AWS di mana Anda dapat berpartisipasi dalam balapan. Sebuah peristiwa memiliki tanggal dimulai dan tanggal berakhir. Peristiwa Sirkuit Virtual biasanya berlangsung selama satu bulan. Ada banyak peristiwa dalam satu musim, dan beberapa peraturan—seperti bagaimana kami memberi peringkat mereka yang berpartisipasi dalam suatu peristiwa, memilih siapa yang menang, dan apa yang terjadi setelahnya—dapat berubah sewaktu-waktu.

Tipe balapan

Semua pembalap dapat balapan dalam balapan time-trial (TT), object-avoidance (OA), atau (H2B). head-to-bot Setiap jenis balapan akan menentukan jumlah putaran dan bagaimana pembalap diberi peringkat.

Standing Musim Nasional

Standing musim nasional mengacu pada peringkat leaderboard pembalap di antara pembalap lain di negara mereka. Semua pembalap dapat bersaing dengan pembalap lain di negara mereka dalam balapan virtual bulanan.

Standing Musim Regional

Standing musim regional mengacu pada peringkat leaderboard pembalap di antara pembalap lain di wilayah mereka.

Kejuaraan Dunia

Papan peringkat bulanan Sirkuit Virtual AWS DeepRacer League dibagi berdasarkan negara dan wilayah. Pembalap top dari masing-masing wilayah akan memiliki kesempatan untuk lolos ke Kejuaraan Dunia di RE:Invent. AWS Untuk informasi lebih lanjut, lihat syarat dan ketentuan.