Perbaikan cluster untuk kesalahan GPU - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Perbaikan cluster untuk kesalahan GPU

Jika Anda menjalankan pekerjaan pelatihan yang gagal pada GPU, SageMaker AI akan menjalankan pemeriksaan kesehatan GPU untuk melihat apakah kegagalan tersebut terkait dengan masalah GPU. SageMaker AI mengambil tindakan berikut berdasarkan hasil pemeriksaan kesehatan:

  • Jika kesalahan dapat dipulihkan, dan dapat diperbaiki dengan me-reboot instance atau mengatur ulang GPU, SageMaker AI akan me-reboot instance.

  • Jika kesalahan tidak dapat dipulihkan, dan disebabkan oleh GPU yang perlu diganti, SageMaker AI akan menggantikan instance.

Instans diganti atau di-boot ulang sebagai bagian dari proses perbaikan cluster SageMaker AI. Selama proses ini, Anda akan melihat pesan berikut dalam status pekerjaan pelatihan Anda:

Repairing training cluster due to hardware failure

SageMaker AI akan mencoba memperbaiki cluster hingga 10 beberapa kali. Jika perbaikan cluster berhasil, SageMaker AI akan secara otomatis memulai kembali pekerjaan pelatihan dari pos pemeriksaan sebelumnya. Jika perbaikan cluster gagal, pekerjaan pelatihan juga akan gagal. Anda tidak ditagih untuk proses perbaikan cluster. Perbaikan klaster tidak akan dimulai kecuali pekerjaan pelatihan Anda gagal. Jika masalah GPU terdeteksi untuk cluster warmpool, cluster akan masuk ke mode perbaikan untuk reboot atau mengganti instance yang salah. Setelah diperbaiki, cluster masih dapat digunakan sebagai cluster warmpool.

Proses perbaikan cluster dan instance yang dijelaskan sebelumnya digambarkan dalam diagram berikut:

The cluster and instance repair process.