Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Label Kubernetes terkait ketahanan oleh SageMaker HyperPod
Label adalah pasangan nilai kunci yang dilampirkan ke objek Kubernetes
Label status kesehatan simpul
node-health-status
Label mewakili status kesehatan simpul dan untuk digunakan sebagai bagian dari filter pemilih node di node yang sehat.
Label | Deskripsi |
---|---|
sagemaker.amazonaws.com/node-health-status:
Schedulable |
Node telah lulus pemeriksaan kesehatan dasar dan tersedia untuk menjalankan beban kerja. Pemeriksaan kesehatan ini sama dengan fitur SageMaker HyperPod ketahanan yang tersedia saat ini untuk cluster Slurm. |
sagemaker.amazonaws.com/node-health-status:
Unschedulable |
Node menjalankan pemeriksaan kesehatan mendalam dan tidak tersedia untuk menjalankan beban kerja. |
sagemaker.amazonaws.com/node-health-status:
UnschedulablePendingReplacement |
Node telah gagal dalam pemeriksaan kesehatan atau pemeriksaan agen pemantau kesehatan dan memerlukan penggantian. Jika pemulihan node otomatis diaktifkan, node akan secara otomatis diganti oleh SageMaker HyperPod. |
sagemaker.amazonaws.com/node-health-status:
UnschedulablePendingReboot |
Node telah gagal dalam pemeriksaan kesehatan atau pemeriksaan agen pemantau kesehatan dan memerlukan reboot. Jika pemulihan node otomatis diaktifkan, node akan secara otomatis reboot oleh. SageMaker HyperPod |
Label pemeriksaan kesehatan mendalam
deep-health-check-status
Label mewakili kemajuan pemeriksaan kesehatan mendalam pada simpul tertentu. Bermanfaat bagi pengguna Kubernetes untuk dengan cepat memfilter kemajuan pemeriksaan kesehatan mendalam secara keseluruhan.
Label | Deskripsi |
---|---|
sagemaker.amazonaws.com/deep-health-check-status:
InProgress |
Node menjalankan pemeriksaan kesehatan mendalam dan tidak tersedia untuk menjalankan beban kerja. |
sagemaker.amazonaws.com/deep-health-check-status:
Passed |
Node telah gagal dalam pemeriksaan kesehatan atau pemeriksaan agen pemantau kesehatan dan memerlukan penggantian. Jika pemulihan node otomatis diaktifkan, node akan secara otomatis diganti oleh SageMaker HyperPod. |
sagemaker.amazonaws.com/deep-health-check-status:
Failed |
Node telah gagal dalam pemeriksaan kesehatan atau pemeriksaan agen pemantauan kesehatan dan memerlukan reboot atau penggantian. Jika pemulihan node otomatis diaktifkan, node akan secara otomatis reboot oleh. SageMaker HyperPod |
Jenis kesalahan dan label alasan
Bera menggambarkan fault-type
dan fault-reason
label.
-
fault-type
label mewakili kategori kesalahan tingkat tinggi ketika pemeriksaan kesehatan gagal. Ini diisi untuk kegagalan yang diidentifikasi selama pemeriksaan agen kesehatan dan pemantauan kesehatan yang mendalam. -
fault-reason
label mewakili alasan kesalahan rinci yang terkait dengan afault-type
.
Bagaimana SageMaker HyperPod label
Topik berikut mencakup bagaimana pelabelan dilakukan tergantung pada berbagai kasus.
Topik
Ketika sebuah node ditambahkan ke SageMaker HyperPod cluster dengan konfigurasi pemeriksaan kesehatan mendalam dinonaktifkan
Ketika node baru ditambahkan ke cluster, dan jika pemeriksaan kesehatan mendalam tidak diaktifkan untuk grup instance, SageMaker HyperPod jalankan pemeriksaan kesehatan yang sama dengan pemeriksaan kesehatan yang tersedia SageMaker HyperPod saat ini untuk cluster Slurm.
Jika pemeriksaan kesehatan berlalu, node akan ditandai dengan label berikut.
sagemaker.amazonaws.com/node-health-status: Schedulable
Jika pemeriksaan kesehatan tidak lulus, node akan dihentikan dan diganti. Perilaku ini sama dengan cara kerja pemeriksaan SageMaker HyperPod kesehatan untuk cluster Slurm.
Ketika sebuah node ditambahkan ke SageMaker HyperPod cluster dengan konfigurasi pemeriksaan kesehatan mendalam diaktifkan
Ketika node baru ditambahkan ke dalam SageMaker HyperPod cluster, dan jika tes pemeriksaan kesehatan mendalam diaktifkan untuk grup instance, HyperPod pertama-tama mencemari node dan memulai pemeriksaan kesehatan/tes stres mendalam ~ 2 jam pada node. Ada 3 kemungkinan output dari label node setelah pemeriksaan kesehatan mendalam.
-
Ketika tes pemeriksaan kesehatan mendalam berlalu
sagemaker.amazonaws.com/node-health-status: Schedulable
-
Ketika tes pemeriksaan kesehatan mendalam gagal, dan instance perlu diganti
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement
-
Ketika tes pemeriksaan kesehatan mendalam gagal, dan instance perlu di-boot ulang untuk menjalankan kembali pemeriksaan kesehatan mendalam
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot
Jika sebuah instance gagal dalam tes pemeriksaan kesehatan mendalam, instance akan selalu diganti. Jika tes pemeriksaan kesehatan mendalam berhasil, noda pada node akan dihapus.
Ketika ada kegagalan komputasi pada node
Agen pemantau SageMaker HyperPod kesehatan juga terus memantau status kesehatan setiap node. Ketika mendeteksi kegagalan (seperti GPU kegagalan dan kerusakan driver), agen menandai node dengan salah satu label berikut.
-
Ketika node tidak sehat dan perlu diganti
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement
-
Ketika node tidak sehat dan perlu di-boot ulang
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot
Agen monitor kesehatan juga menodai node ketika mendeteksi masalah kesehatan node.