Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Kustomisasi SageMaker HyperPod cluster menggunakan skrip siklus hidup
SageMaker HyperPod selalu menawarkan cluster up-and-running komputasi, yang sangat dapat disesuaikan karena Anda dapat menulis skrip siklus hidup untuk memberi tahu SageMaker HyperPod cara mengatur sumber daya cluster. Topik berikut adalah praktik terbaik untuk menyiapkan skrip siklus hidup untuk menyiapkan SageMaker HyperPod kluster dengan alat pengelola beban kerja sumber terbuka.
Topik berikut membahas praktik terbaik mendalam untuk menyiapkan skrip siklus hidup untuk menyiapkan konfigurasi Slurm. SageMaker HyperPod
Ikhtisar tingkat tinggi
Prosedur berikut adalah aliran utama penyediaan HyperPod cluster dan mengaturnya dengan Slurm. Langkah-langkahnya diatur dalam urutan pendekatan bottom-up.
-
Rencanakan bagaimana Anda ingin membuat node Slurm pada sebuah HyperPod cluster. Misalnya, jika Anda ingin mengkonfigurasi dua node Slurm, Anda harus mengatur dua grup instance dalam sebuah HyperPod cluster.
-
Siapkan
provisioning_parameters.json
file, yang merupakan fileFormulir konfigurasi untuk penyediaan node Slurm pada HyperPod.provisioning_parameters.json
harus berisi informasi konfigurasi simpul Slurm untuk disediakan di cluster. HyperPod Ini harus mencerminkan desain node Slurm dari Langkah 1. -
Siapkan satu set skrip siklus hidup untuk menyiapkan Slurm on HyperPod untuk menginstal paket perangkat lunak dan menyiapkan lingkungan di cluster untuk kasus penggunaan Anda. Anda harus menyusun skrip siklus hidup untuk dijalankan secara kolektif dalam skrip Python pusat (
lifecycle_script.py
), dan menulis skrip shell titik masuk () untuk menjalankan skrip Python.on_create.sh
Skrip shell entrypoint adalah apa yang perlu Anda berikan ke permintaan pembuatan HyperPod cluster nanti di Langkah 5.Juga, perhatikan bahwa Anda harus menulis skrip
resource_config.json
yang diharapkan akan dihasilkan oleh HyperPod selama pembuatan cluster.resource_config.json
berisi informasi sumber daya HyperPod cluster seperti alamat IP, jenis instance, danARNs, dan apa yang perlu Anda gunakan untuk mengkonfigurasi Slurm. -
Kumpulkan semua file dari langkah sebelumnya ke dalam folder.
└── lifecycle_files // your local folder ├── provisioning_parameters.json ├── on_create.sh ├── lifecycle_script.py └── ... // more setup scrips to be fed into lifecycle_script.py
-
Unggah semua file ke bucket S3. Salin dan simpan jalur bucket S3. Perhatikan bahwa Anda harus membuat jalur bucket S3 dimulai
sagemaker-
karena Anda harus memilih yang IAMperan untuk SageMaker HyperPod terpasang AmazonSageMakerClusterInstanceRolePolicy, yang hanya mengizinkan jalur bucket S3 yang dimulai dengan awalan.sagemaker-
Perintah berikut adalah contoh perintah untuk meng-upload semua file ke bucket S3.aws s3 cp --recursive
./lifecycle_files
s3://sagemaker-hyperpod-lifecycle/src
-
Siapkan permintaan pembuatan HyperPod cluster.
-
Opsi 1: Jika Anda menggunakan AWS CLI, tulis permintaan pembuatan cluster dalam JSON format (
create_cluster.json
) mengikuti petunjuk diBuat cluster baru. -
Opsi 2: Jika Anda menggunakan UI SageMaker konsol, isi formulir Buat permintaan klaster di UI HyperPod konsol dengan mengikuti petunjuk diBuat SageMaker HyperPod cluster.
Pada tahap ini, pastikan Anda membuat grup instance dalam struktur yang sama dengan yang Anda rencanakan di Langkah 1 dan 2. Selain itu, pastikan Anda menentukan bucket S3 dari Langkah 5 di formulir permintaan.
-
-
Kirim permintaan pembuatan cluster. HyperPod menyediakan cluster berdasarkan permintaan, dan kemudian membuat
resource_config.json
file dalam instance HyperPod cluster, dan menyiapkan Slurm di cluster yang menjalankan skrip siklus hidup.
Topik berikut memandu Anda dan menyelami detail tentang cara mengatur file konfigurasi dan skrip siklus hidup agar berfungsi dengan baik selama HyperPod pembuatan klaster.
Topik
- Mulailah dengan skrip siklus hidup dasar yang disediakan oleh HyperPod
- Konfigurasi tertentu apa yang HyperPod dikelola dalam file konfigurasi Slurm
- Pasang Amazon FSx untuk Lustre ke sebuah cluster HyperPod
- Validasi file JSON konfigurasi sebelum membuat cluster Slurm HyperPod
- Validasi runtime sebelum menjalankan beban kerja produksi pada klaster Slurm HyperPod
- Kembangkan skrip siklus hidup secara interaktif pada node cluster HyperPod
- Perbarui cluster dengan skrip siklus hidup baru atau yang diperbarui