Algoritma DeepRacer pelatihan AWS - AWS DeepRacer

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Algoritma DeepRacer pelatihan AWS

Proximal Policy Optimization (PPO) versus Soft Actor Critic (SAC)

Algoritme SAC dan PPO mempelajari fungsi kebijakan dan nilai pada saat yang sama, tetapi strategi keduanya berbeda dalam tiga cara penting:

PPO SAC

Bekerja di ruang tindakan diskrit dan berkelanjutan

Bekerja di ruang tindakan berkelanjutan

On-policy

Off-policy

Menggunakan regularisasi entropi

Tambahkan entropi ke tujuan maksimalisasi

Stabil vs. lapar data

Informasi yang dipelajari oleh kebijakan algoritme PPO dan SAC saat menjelajahi lingkungan digunakan secara berbeda. PPO menggunakan on-policy learning yang berarti mempelajari fungsi nilainya dari pengamatan yang dilakukan oleh kebijakan saat ini yang mengeksplorasi lingkungan. SAC menggunakan pembelajaran off-policy yang berarti SAC dapat menggunakan pengamatan yang dilakukan oleh eksplorasi kebijakan sebelumnya terhadap lingkungan. Pertukaran antara pembelajaran off-policy dan on-policy sering kali stabilitas vs efisiensi data. Algoritme on-policy cenderung lebih stabil tapi data hungry, sedangkan algoritme off-policy cenderung sebaliknya.

Eksplorasi vs eksploitasi

Eksplorasi vs eksploitasi merupakan tantangan utama dalam RL. Sebuah algoritme harus mengeksploitasi informasi yang diketahui dari pengalaman sebelumnya untuk mencapai penghargaan kumulatif yang lebih tinggi, tetapi juga perlu dieksplorasi untuk mendapatkan pengalaman baru yang dapat digunakan dalam menemukan kebijakan yang optimal di masa depan. Karena kebijakan dilatih melalui beberapa iterasi dan mempelajari lebih lanjut tentang suatu lingkungan, kebijakan tersebut menjadi lebih pasti tentang memilih tindakan untuk pengamatan tertentu. Namun, jika kebijakan tersebut tidak cukup mengeksplorasi, kemungkinan akan menempel pada informasi yang telah dipelajari meskipun tidak secara optimal. Algoritme PPO mendorong eksplorasi dengan menggunakan regularisasi entropi, yang mencegah agen dari konvergen ke optima lokal. Algoritme SAC memberikan keseimbangan yang luar biasa antara eksplorasi dan eksploitasi dengan menambahkan entropi ke tujuan maksimalisasinya.

Entropi

Dalam konteks ini, "entropi" adalah ukuran ketidakpastian dalam kebijakan, sehingga dapat diartikan sebagai ukuran seberapa yakin suatu kebijakan dalam memilih tindakan untuk status tertentu. Kebijakan dengan entropi rendah sangat yakin dalam memilih tindakan, sedangkan kebijakan dengan entropi tinggi tidak yakin tindakan mana yang harus dipilih.

Strategi maksimalisasi entropi algoritme SAC memiliki keuntungan yang serupa dengan penggunaan entropi algoritme PPO sebagai pengatur. Seperti PPO, mendorong eksplorasi yang lebih luas dan menghindari konvergensi ke optimum lokal yang buruk dengan memberi insentif kepada agen untuk memilih tindakan dengan entropi yang lebih tinggi. Tidak seperti regulasi entropi, maksimalisasi entropi memiliki keunggulan yang unik. Hal itu cenderung menyerah pada kebijakan yang memilih perilaku yang tidak menjanjikan, yang merupakan alasan lain bahwa algoritme SAC cenderung lebih efisien data daripada PPO.

Sesuaikan jumlah entropi di SAC dengan menggunakan hyperparameter alfa SAC. Nilai entropi alfa SAC maksimum (1,0) mendukung eksplorasi. Nilai minimum (0,0) memulihkan tujuan RL standar dan menetralkan bonus entropi yang mendorong eksplorasi. Nilai alfa SAC yang baik untuk memulai bereksperimen adalah 0,5. Atur sesuai seperti yang Anda ulangi pada model Anda.

Coba algoritme PPO dan SAC, bereksperimen dengan hyperparameternya, dan jelajahi dengan keduanya di ruang tindakan yang berbeda.