Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Perbaikan cluster untuk GPU kesalahan
Jika Anda menjalankan pekerjaan pelatihan yang gagal pada aGPU, SageMaker akan menjalankan pemeriksaan GPU kesehatan untuk melihat apakah kegagalan terkait dengan GPU masalah. SageMaker mengambil tindakan berikut berdasarkan hasil pemeriksaan kesehatan:
Jika kesalahan dapat dipulihkan, dan dapat diperbaiki dengan me-reboot instance atau mengatur ulang, akan me-reboot instance. GPU SageMaker
Jika kesalahan tidak dapat dipulihkan, dan disebabkan oleh GPU yang perlu diganti, SageMaker akan menggantikan instance.
Instance diganti atau di-boot ulang sebagai bagian dari proses perbaikan SageMaker cluster. Selama proses ini, Anda akan melihat pesan berikut dalam status pekerjaan pelatihan Anda:
Repairing training cluster due to hardware failure
SageMaker akan mencoba memperbaiki cluster hingga 10
beberapa kali. Jika perbaikan cluster berhasil, secara otomatis SageMaker akan restart pekerjaan pelatihan dari pos pemeriksaan sebelumnya. Jika perbaikan cluster gagal, pekerjaan pelatihan juga akan gagal. Anda tidak ditagih untuk proses perbaikan cluster. Perbaikan klaster tidak akan dimulai kecuali pekerjaan pelatihan Anda gagal. Jika GPU masalah terdeteksi untuk cluster warmpool, cluster akan masuk ke mode perbaikan untuk reboot atau mengganti instance yang salah. Setelah diperbaiki, cluster masih dapat digunakan sebagai cluster warmpool.
Proses perbaikan cluster dan instance yang dijelaskan sebelumnya digambarkan dalam diagram berikut: