Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Lingkungan RL di Amazon SageMaker
Amazon SageMaker RL menggunakan lingkungan untuk meniru skenario dunia nyata. Mengingat keadaan lingkungan saat ini dan tindakan yang diambil oleh agen atau agen, simulator memproses dampak tindakan, dan mengembalikan keadaan berikutnya dan hadiah. Simulator berguna dalam kasus di mana tidak aman untuk melatih agen di dunia nyata (misalnya, menerbangkan drone) atau jika algoritma RL membutuhkan waktu lama untuk bertemu (misalnya, saat bermain catur).
Diagram berikut menunjukkan contoh interaksi dengan simulator untuk game balap mobil.
Lingkungan simulasi terdiri dari agen dan simulator. Di sini, jaringan saraf convolutional (CNN) mengkonsumsi gambar dari simulator dan menghasilkan tindakan untuk mengontrol pengontrol game. Dengan beberapa simulasi, lingkungan ini menghasilkan data pelatihan formulirstate_t
,, action
state_t+1
, danreward_t+1
. Mendefinisikan hadiah tidak sepele dan berdampak pada kualitas model RL. Kami ingin memberikan beberapa contoh fungsi hadiah, tetapi ingin membuatnya dapat dikonfigurasi pengguna.
Topik
Gunakan OpenAI Gym Interface untuk Lingkungan di RL SageMaker
Untuk menggunakan lingkungan OpenAI Gym di SageMaker RL, gunakan elemen berikut. API Untuk informasi selengkapnya tentang OpenAI Gym, lihat Dokumentasi Gym
-
env.action_space
Mendefinisikan tindakan yang dapat diambil agen, menentukan apakah setiap tindakan kontinu atau diskrit, dan menentukan minimum dan maksimum jika tindakan itu kontinu. -
env.observation_space
—Mendefinisikan pengamatan yang diterima agen dari lingkungan, serta minimum dan maksimum untuk pengamatan berkelanjutan. -
env.reset()
—Menginisialisasi episode pelatihan.reset()
Fungsi mengembalikan keadaan awal lingkungan, dan agen menggunakan keadaan awal untuk mengambil tindakan pertamanya. Tindakan tersebut kemudian dikirim kestep()
berulang kali sampai episode mencapai status terminal. Ketikastep()
kembalidone = True
, episode berakhir. Toolkit RL menginisialisasi ulang lingkungan dengan menelepon.reset()
-
step()
Mengambil tindakan agen sebagai masukan dan output keadaan lingkungan berikutnya, hadiah, apakah episode telah berakhir, daninfo
kamus untuk mengkomunikasikan informasi debugging. Merupakan tanggung jawab lingkungan untuk memvalidasi input. -
env.render()
Digunakan untuk lingkungan yang memiliki visualisasi. Toolkit RL memanggil fungsi ini untuk menangkap visualisasi lingkungan setelah setiap panggilan ke fungsi.step()
Gunakan Lingkungan Sumber Terbuka
Anda dapat menggunakan lingkungan sumber terbuka, seperti EnergyPlus dan RoboSchool, di SageMaker RL dengan membuat wadah Anda sendiri. Untuk informasi lebih lanjut tentang EnergyPlus, lihat https://energyplus.net/
Gunakan Lingkungan Komersil
Anda dapat menggunakan lingkungan komersial, seperti MATLAB dan Simulink, di SageMaker RL dengan membangun wadah Anda sendiri. Anda perlu mengelola lisensi Anda sendiri.