Label Kubernetes terkait ketahanan oleh SageMaker HyperPod - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Label Kubernetes terkait ketahanan oleh SageMaker HyperPod

Label adalah pasangan nilai kunci yang dilampirkan ke objek Kubernetes. SageMaker HyperPod memperkenalkan label berikut untuk pemeriksaan kesehatan yang diberikannya.

Label status kesehatan simpul

node-health-statusLabel mewakili status kesehatan simpul dan untuk digunakan sebagai bagian dari filter pemilih node di node yang sehat.

Label Deskripsi
sagemaker.amazonaws.com/node-health-status: Schedulable Node telah lulus pemeriksaan kesehatan dasar dan tersedia untuk menjalankan beban kerja. Pemeriksaan kesehatan ini sama dengan fitur SageMaker HyperPod ketahanan yang tersedia saat ini untuk cluster Slurm.
sagemaker.amazonaws.com/node-health-status: Unschedulable Node menjalankan pemeriksaan kesehatan mendalam dan tidak tersedia untuk menjalankan beban kerja.
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement Node telah gagal dalam pemeriksaan kesehatan atau pemeriksaan agen pemantau kesehatan dan memerlukan penggantian. Jika pemulihan node otomatis diaktifkan, node akan secara otomatis diganti oleh SageMaker HyperPod.
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot Node telah gagal dalam pemeriksaan kesehatan atau pemeriksaan agen pemantau kesehatan dan memerlukan reboot. Jika pemulihan node otomatis diaktifkan, node akan secara otomatis reboot oleh. SageMaker HyperPod

Label pemeriksaan kesehatan mendalam

deep-health-check-statusLabel mewakili kemajuan pemeriksaan kesehatan mendalam pada simpul tertentu. Bermanfaat bagi pengguna Kubernetes untuk dengan cepat memfilter kemajuan pemeriksaan kesehatan mendalam secara keseluruhan.

Label Deskripsi
sagemaker.amazonaws.com/deep-health-check-status: InProgress Node menjalankan pemeriksaan kesehatan mendalam dan tidak tersedia untuk menjalankan beban kerja.
sagemaker.amazonaws.com/deep-health-check-status: Passed Node telah gagal dalam pemeriksaan kesehatan atau pemeriksaan agen pemantau kesehatan dan memerlukan penggantian. Jika pemulihan node otomatis diaktifkan, node akan secara otomatis diganti oleh SageMaker HyperPod.
sagemaker.amazonaws.com/deep-health-check-status: Failed Node telah gagal dalam pemeriksaan kesehatan atau pemeriksaan agen pemantauan kesehatan dan memerlukan reboot atau penggantian. Jika pemulihan node otomatis diaktifkan, node akan secara otomatis reboot oleh. SageMaker HyperPod

Jenis kesalahan dan label alasan

Bera menggambarkan fault-type dan fault-reason label.

  • fault-typelabel mewakili kategori kesalahan tingkat tinggi ketika pemeriksaan kesehatan gagal. Ini diisi untuk kegagalan yang diidentifikasi selama pemeriksaan agen kesehatan dan pemantauan kesehatan yang mendalam.

  • fault-reasonlabel mewakili alasan kesalahan rinci yang terkait dengan afault-type.

Bagaimana SageMaker HyperPod label

Topik berikut mencakup bagaimana pelabelan dilakukan tergantung pada berbagai kasus.

Ketika sebuah node ditambahkan ke SageMaker HyperPod cluster dengan konfigurasi pemeriksaan kesehatan mendalam dinonaktifkan

Ketika node baru ditambahkan ke cluster, dan jika pemeriksaan kesehatan mendalam tidak diaktifkan untuk grup instance, SageMaker HyperPod jalankan pemeriksaan kesehatan yang sama dengan pemeriksaan kesehatan yang tersedia SageMaker HyperPod saat ini untuk cluster Slurm.

Jika pemeriksaan kesehatan berlalu, node akan ditandai dengan label berikut.

sagemaker.amazonaws.com/node-health-status: Schedulable

Jika pemeriksaan kesehatan tidak lulus, node akan dihentikan dan diganti. Perilaku ini sama dengan cara kerja pemeriksaan SageMaker HyperPod kesehatan untuk cluster Slurm.

Ketika sebuah node ditambahkan ke SageMaker HyperPod cluster dengan konfigurasi pemeriksaan kesehatan mendalam diaktifkan

Ketika node baru ditambahkan ke dalam SageMaker HyperPod cluster, dan jika tes pemeriksaan kesehatan mendalam diaktifkan untuk grup instance, HyperPod pertama-tama mencemari node dan memulai pemeriksaan kesehatan/tes stres mendalam ~ 2 jam pada node. Ada 3 kemungkinan output dari label node setelah pemeriksaan kesehatan mendalam.

  1. Ketika tes pemeriksaan kesehatan mendalam berlalu

    sagemaker.amazonaws.com/node-health-status: Schedulable
  2. Ketika tes pemeriksaan kesehatan mendalam gagal, dan instance perlu diganti

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement
  3. Ketika tes pemeriksaan kesehatan mendalam gagal, dan instance perlu di-boot ulang untuk menjalankan kembali pemeriksaan kesehatan mendalam

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot

Jika sebuah instance gagal dalam tes pemeriksaan kesehatan mendalam, instance akan selalu diganti. Jika tes pemeriksaan kesehatan mendalam berhasil, noda pada node akan dihapus.

Ketika ada kegagalan komputasi pada node

Agen pemantau SageMaker HyperPod kesehatan juga terus memantau status kesehatan setiap node. Ketika mendeteksi kegagalan (seperti GPU kegagalan dan kerusakan driver), agen menandai node dengan salah satu label berikut.

  1. Ketika node tidak sehat dan perlu diganti

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement
  2. Ketika node tidak sehat dan perlu di-boot ulang

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot

Agen monitor kesehatan juga menodai node ketika mendeteksi masalah kesehatan node.