Pilih preferensi cookie Anda

Kami menggunakan cookie penting serta alat serupa yang diperlukan untuk menyediakan situs dan layanan. Kami menggunakan cookie performa untuk mengumpulkan statistik anonim sehingga kami dapat memahami cara pelanggan menggunakan situs dan melakukan perbaikan. Cookie penting tidak dapat dinonaktifkan, tetapi Anda dapat mengklik “Kustom” atau “Tolak” untuk menolak cookie performa.

Jika Anda setuju, AWS dan pihak ketiga yang disetujui juga akan menggunakan cookie untuk menyediakan fitur situs yang berguna, mengingat preferensi Anda, dan menampilkan konten yang relevan, termasuk iklan yang relevan. Untuk menerima atau menolak semua cookie yang tidak penting, klik “Terima” atau “Tolak”. Untuk membuat pilihan yang lebih detail, klik “Kustomisasi”.

Karantina, ganti, atau reboot node secara manual

Mode fokus
Karantina, ganti, atau reboot node secara manual - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Pelajari cara mengkarantina, mengganti, dan me-reboot node yang salah secara manual di SageMaker HyperPod cluster yang diatur dengan Amazon EKS.

Untuk mengkarantina sebuah node dan memaksa menghapus pod pelatihan

kubectl cordon <node-name>

Setelah karantina, paksa mengeluarkan Pod. Ini berguna ketika Anda melihat pod macet dalam penghentian selama lebih dari 30 menit atau kubectl describe pod menunjukkan 'Node tidak siap' di Acara

kubectl delete pods <pod-name> --grace-period=0 --force

Untuk mengganti simpul

Beri label pada node yang akan diganti dengansagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement, yang memicu. SageMaker HyperPod Pemulihan simpul otomatis Perhatikan bahwa Anda juga perlu mengaktifkan pemulihan node otomatis selama pembuatan atau pembaruan cluster.

kubectl label nodes <node-name> \ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement

Untuk me-reboot sebuah node

Beri label pada node untuk rebootsagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot, yang memicu. SageMaker HyperPod Pemulihan simpul otomatis Perhatikan bahwa Anda juga perlu mengaktifkan pemulihan node otomatis selama pembuatan atau pembaruan cluster.

kubectl label nodes <node-name> \ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot

Setelah label UnschedulablePendingReplacement atau UnschedulablePendingReboot diterapkan, Anda akan dapat melihat node dihentikan atau reboot dalam beberapa menit.

PrivasiSyarat situsPreferensi cookie
© 2025, Amazon Web Services, Inc. atau afiliasinya. Semua hak dilindungi undang-undang.