Lingkungan RL di Amazon SageMaker - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Lingkungan RL di Amazon SageMaker

Amazon SageMaker RL menggunakan lingkungan untuk meniru skenario dunia nyata. Mengingat keadaan lingkungan saat ini dan tindakan yang diambil oleh agen atau agen, simulator memproses dampak tindakan, dan mengembalikan keadaan berikutnya dan hadiah. Simulator berguna dalam kasus di mana tidak aman untuk melatih agen di dunia nyata (misalnya, menerbangkan drone) atau jika algoritma RL membutuhkan waktu lama untuk bertemu (misalnya, saat bermain catur).

Diagram berikut menunjukkan contoh interaksi dengan simulator untuk game balap mobil.

Contoh interaksi dengan simulator untuk game balap mobil.

Lingkungan simulasi terdiri dari agen dan simulator. Di sini, jaringan saraf convolutional (CNN) mengkonsumsi gambar dari simulator dan menghasilkan tindakan untuk mengontrol pengontrol game. Dengan beberapa simulasi, lingkungan ini menghasilkan data pelatihan formulirstate_t,, actionstate_t+1, danreward_t+1. Mendefinisikan hadiah tidak sepele dan berdampak pada kualitas model RL. Kami ingin memberikan beberapa contoh fungsi hadiah, tetapi ingin membuatnya dapat dikonfigurasi pengguna.

Gunakan OpenAI Gym Interface untuk Lingkungan di RL SageMaker

Untuk menggunakan lingkungan OpenAI Gym di SageMaker RL, gunakan elemen berikut. API Untuk informasi selengkapnya tentang OpenAI Gym, lihat Dokumentasi Gym.

  • env.action_spaceMendefinisikan tindakan yang dapat diambil agen, menentukan apakah setiap tindakan kontinu atau diskrit, dan menentukan minimum dan maksimum jika tindakan itu kontinu.

  • env.observation_space—Mendefinisikan pengamatan yang diterima agen dari lingkungan, serta minimum dan maksimum untuk pengamatan berkelanjutan.

  • env.reset()—Menginisialisasi episode pelatihan. reset()Fungsi mengembalikan keadaan awal lingkungan, dan agen menggunakan keadaan awal untuk mengambil tindakan pertamanya. Tindakan tersebut kemudian dikirim ke step() berulang kali sampai episode mencapai status terminal. Ketika step() kembalidone = True, episode berakhir. Toolkit RL menginisialisasi ulang lingkungan dengan menelepon. reset()

  • step()Mengambil tindakan agen sebagai masukan dan output keadaan lingkungan berikutnya, hadiah, apakah episode telah berakhir, dan info kamus untuk mengkomunikasikan informasi debugging. Merupakan tanggung jawab lingkungan untuk memvalidasi input.

  • env.render()Digunakan untuk lingkungan yang memiliki visualisasi. Toolkit RL memanggil fungsi ini untuk menangkap visualisasi lingkungan setelah setiap panggilan ke fungsi. step()

Gunakan Lingkungan Sumber Terbuka

Anda dapat menggunakan lingkungan sumber terbuka, seperti EnergyPlus dan RoboSchool, di SageMaker RL dengan membuat wadah Anda sendiri. Untuk informasi lebih lanjut tentang EnergyPlus, lihat https://energyplus.net/. Untuk informasi lebih lanjut tentang RoboSchool, lihat https://github.com/openai/roboschool. RoboSchool Contoh HVAC dan dalam repositori SageMaker contoh menunjukkan cara membangun wadah khusus untuk digunakan dengan SageMaker RL:

Gunakan Lingkungan Komersil

Anda dapat menggunakan lingkungan komersial, seperti MATLAB dan Simulink, di SageMaker RL dengan membangun wadah Anda sendiri. Anda perlu mengelola lisensi Anda sendiri.