Konfigurasi ketahanan yang disarankan - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Konfigurasi ketahanan yang disarankan

Ketika pemeriksaan kesehatan mendalam diaktifkan, setiap kali instance baru ditambahkan ke HyperPod cluster (baik selama create-cluster atau melalui penggantian node otomatis), instance baru melewati proses pemeriksaan kesehatan mendalam (tes stres tingkat instance) selama sekitar beberapa jam. Berikut ini adalah kombinasi konfigurasi ketahanan yang disarankan tergantung pada kemungkinan kasus.

  1. Kasus: Ketika Anda memiliki node cadangan tambahan dalam cluster sebagai sumber daya cadangan (tidak menggunakan kapasitas penuh), atau jika Anda dapat menunggu sekitar 2 jam untuk proses pemeriksaan kesehatan mendalam untuk mendapatkan contoh yang kurang rawan kesalahan.

    Rekomendasi: Aktifkan konfigurasi pemeriksaan kesehatan mendalam di seluruh siklus hidup cluster. Konfigurasi pemulihan otomatis node diaktifkan secara default.

  2. Kasus: Bila Anda tidak memiliki node cadangan tambahan (kapasitas sepenuhnya digunakan untuk beberapa beban pelatihan). Anda ingin mendapatkan node pengganti sesegera mungkin untuk melanjutkan pekerjaan pelatihan.

    Rekomendasi: Aktifkan pemeriksaan kesehatan mendalam selama pembuatan cluster, lalu matikan konfigurasi pemeriksaan kesehatan mendalam setelah cluster dibuat. Konfigurasi pemulihan otomatis node diaktifkan secara default.

  3. Kasus: Ketika Anda tidak memiliki node cadangan tambahan, dan Anda tidak ingin menunggu proses pemeriksaan kesehatan mendalam ~ 2 jam (cluster kecil).

    Rekomendasi: nonaktifkan konfigurasi pemeriksaan kesehatan mendalam sepanjang siklus hidup cluster. Konfigurasi pemulihan otomatis node diaktifkan secara default.

Jika Anda ingin segera melanjutkan pekerjaan pelatihan dari kegagalan, pastikan Anda memiliki node cadangan tambahan sebagai sumber daya cadangan di cluster.