Karantina, ganti, atau reboot node secara manual - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Karantina, ganti, atau reboot node secara manual

Pelajari cara mengkarantina, mengganti, dan me-reboot node yang salah secara manual di SageMaker HyperPod cluster yang diatur dengan Amazon. EKS

Untuk mengkarantina sebuah node dan memaksa menghapus pod pelatihan

kubectl cordon <node-name>

Setelah karantina, paksa mengeluarkan Pod. Ini berguna ketika Anda melihat pod macet dalam penghentian selama lebih dari 30 menit atau kubectl describe pod menunjukkan 'Node tidak siap' di Acara

kubectl delete pods <pod-name> --grace-period=0 --force

Untuk mengganti node

Beri label pada node yang akan diganti dengansagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement, yang memicu. SageMaker HyperPod Pemulihan simpul otomatis Perhatikan bahwa Anda juga perlu mengaktifkan pemulihan node otomatis selama pembuatan atau pembaruan cluster.

kubectl label nodes <node-name> \ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement

Untuk me-reboot sebuah node

Beri label pada node untuk rebootsagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot, yang memicu. SageMaker HyperPod Pemulihan simpul otomatis Perhatikan bahwa Anda juga perlu mengaktifkan pemulihan node otomatis selama pembuatan atau pembaruan cluster.

kubectl label nodes <node-name> \ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot

Setelah label UnschedulablePendingReplacement atau UnschedulablePendingReboot diterapkan, Anda akan dapat melihat node dihentikan atau reboot dalam beberapa menit.