Jalankan pekerjaan menggunakan SageMaker HyperPod CLI - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Jalankan pekerjaan menggunakan SageMaker HyperPod CLI

Untuk menjalankan pekerjaan, pastikan Anda menginstal Kubeflow Training Operator di kluster EKS. Untuk informasi selengkapnya, lihat Instal paket di kluster Amazon EKS menggunakan Helm.

Jalankan hyperpod get-cluster perintah untuk mendapatkan daftar HyperPod cluster yang tersedia.

hyperpod get-clusters

Jalankan hyperpod connect-cluster untuk mengkonfigurasi SageMaker HyperPod CLI dengan cluster EKS yang mengatur cluster. HyperPod

hyperpod connect-cluster --cluster-name <hyperpod-cluster-name>

Gunakan hyperpod start-job perintah untuk menjalankan pekerjaan. Perintah berikut menunjukkan perintah dengan opsi yang diperlukan.

hyperpod start-job \ --job-name <job-name> --image <docker-image-uri> --entry-script <entrypoint-script> --instance-type <ml.instance.type> --node-count <integer>

hyperpod start-jobPerintah ini juga dilengkapi dengan berbagai opsi seperti resume otomatis pekerjaan dan penjadwalan pekerjaan.

Mengaktifkan resume otomatis pekerjaan

hyperpod start-jobPerintah ini juga memiliki opsi berikut untuk menentukan resume otomatis pekerjaan. Untuk mengaktifkan resume otomatis pekerjaan agar berfungsi dengan fitur ketahanan SageMaker HyperPod simpul, Anda harus menetapkan nilai opsi tersebut. restart-policy OnFailure Pekerjaan harus berjalan di bawah kubeflow namespace atau namespace yang diawali dengan. hyperpod

  • [--auto-resume<bool>] #Optional, aktifkan resume otomatis pekerjaan setelah gagal, defaultnya salah

  • [--max-retry<int>] #Optional, jika auto-resume benar, nilai default max-retry adalah 1 jika tidak ditentukan

  • [--restart-policy<enum>] #Optional, mulai ulang kebijakan. PyTorchJob Nilai yang tersedia adalahAlways,OnFailure, Never atauExitCode. Nilai default-nya adalah OnFailure.

hyperpod start-job \ ... // required options \ --auto-resume true \ --max-retry 3 \ --restart-policy OnFailure

Menjalankan pekerjaan dengan opsi penjadwalan

hyperpod start-jobPerintah memiliki opsi berikut untuk mengatur pekerjaan dengan mekanisme antrian.

catatan

Anda perlu Kueue diinstal di cluster EKS. Jika Anda belum menginstal, ikuti instruksi diPengaturan untuk tata kelola SageMaker HyperPod tugas.

  • [--scheduler-type<enum>] #Optional, Tentukan jenis penjadwal. Default-nya adalah Kueue.

  • [--queue-name<string>] #Optional, Tentukan nama Antrian Lokal atau Antrian Cluster yang ingin Anda kirimkan dengan pekerjaan. Antrian harus dibuat oleh admin cluster menggunakan. CreateComputeQuota

  • [--priority<string>] #Optional, Tentukan nama Kelas Prioritas Beban Kerja, yang harus dibuat oleh admin cluster.

hyperpod start-job \ ... // required options --scheduler-type Kueue \ --queue-name high-priority-queue \ --priority high

Menjalankan pekerjaan dari file konfigurasi

Sebagai alternatif, Anda dapat membuat file konfigurasi pekerjaan yang berisi semua parameter yang diperlukan oleh pekerjaan dan kemudian meneruskan file konfigurasi ini ke hyperpod start-job perintah menggunakan opsi --config-file. Dalam kasus ini:

  1. Buat file konfigurasi pekerjaan Anda dengan parameter yang diperlukan. Lihat file konfigurasi pekerjaan di GitHub repositori SageMaker HyperPod CLI untuk file konfigurasi dasar.

  2. Mulai pekerjaan menggunakan file konfigurasi sebagai berikut.

    hyperpod start-job --config-file /path/to/test_job.yaml
Tip

Untuk daftar lengkap parameter hyperpod start-job perintah, lihat bagian Submitting a Job di repositori README.md CLI SageMaker HyperPod . GitHub