Kustomisasi SageMaker HyperPod cluster menggunakan skrip siklus hidup - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Kustomisasi SageMaker HyperPod cluster menggunakan skrip siklus hidup

SageMaker HyperPod selalu menawarkan cluster up-and-running komputasi, yang sangat dapat disesuaikan karena Anda dapat menulis skrip siklus hidup untuk memberi tahu SageMaker HyperPod cara mengatur sumber daya cluster. Topik berikut adalah praktik terbaik untuk menyiapkan skrip siklus hidup untuk menyiapkan SageMaker HyperPod kluster dengan alat pengelola beban kerja sumber terbuka.

Topik berikut membahas praktik terbaik mendalam untuk menyiapkan skrip siklus hidup untuk menyiapkan konfigurasi Slurm. SageMaker HyperPod

Ikhtisar tingkat tinggi

Prosedur berikut adalah aliran utama penyediaan HyperPod cluster dan mengaturnya dengan Slurm. Langkah-langkahnya diatur dalam urutan pendekatan bottom-up.

  1. Rencanakan bagaimana Anda ingin membuat node Slurm pada sebuah HyperPod cluster. Misalnya, jika Anda ingin mengkonfigurasi dua node Slurm, Anda harus mengatur dua grup instance dalam sebuah HyperPod cluster.

  2. Siapkan provisioning_parameters.json file, yang merupakan fileFormulir konfigurasi untuk penyediaan node Slurm pada HyperPod. provisioning_parameters.jsonharus berisi informasi konfigurasi simpul Slurm untuk disediakan di cluster. HyperPod Ini harus mencerminkan desain node Slurm dari Langkah 1.

  3. Siapkan satu set skrip siklus hidup untuk menyiapkan Slurm on HyperPod untuk menginstal paket perangkat lunak dan menyiapkan lingkungan di cluster untuk kasus penggunaan Anda. Anda harus menyusun skrip siklus hidup untuk dijalankan secara kolektif dalam skrip Python pusat (lifecycle_script.py), dan menulis skrip shell titik masuk () untuk menjalankan skrip Python. on_create.sh Skrip shell entrypoint adalah apa yang perlu Anda berikan ke permintaan pembuatan HyperPod cluster nanti di Langkah 5.

    Juga, perhatikan bahwa Anda harus menulis skrip resource_config.json yang diharapkan akan dihasilkan oleh HyperPod selama pembuatan cluster. resource_config.jsonberisi informasi sumber daya HyperPod cluster seperti alamat IP, jenis instance, danARNs, dan apa yang perlu Anda gunakan untuk mengkonfigurasi Slurm.

  4. Kumpulkan semua file dari langkah sebelumnya ke dalam folder.

    └── lifecycle_files // your local folder ├── provisioning_parameters.json ├── on_create.sh ├── lifecycle_script.py └── ... // more setup scrips to be fed into lifecycle_script.py
  5. Unggah semua file ke bucket S3. Salin dan simpan jalur bucket S3. Perhatikan bahwa Anda harus membuat jalur bucket S3 dimulai sagemaker- karena Anda harus memilih yang IAMperan untuk SageMaker HyperPod terpasang AmazonSageMakerClusterInstanceRolePolicy, yang hanya mengizinkan jalur bucket S3 yang dimulai dengan awalan. sagemaker- Perintah berikut adalah contoh perintah untuk meng-upload semua file ke bucket S3.

    aws s3 cp --recursive ./lifecycle_files s3://sagemaker-hyperpod-lifecycle/src
  6. Siapkan permintaan pembuatan HyperPod cluster.

    • Opsi 1: Jika Anda menggunakan AWS CLI, tulis permintaan pembuatan cluster dalam JSON format (create_cluster.json) mengikuti petunjuk diBuat cluster baru.

    • Opsi 2: Jika Anda menggunakan UI SageMaker konsol, isi formulir Buat permintaan klaster di UI HyperPod konsol dengan mengikuti petunjuk diBuat SageMaker HyperPod cluster.

    Pada tahap ini, pastikan Anda membuat grup instance dalam struktur yang sama dengan yang Anda rencanakan di Langkah 1 dan 2. Selain itu, pastikan Anda menentukan bucket S3 dari Langkah 5 di formulir permintaan.

  7. Kirim permintaan pembuatan cluster. HyperPod menyediakan cluster berdasarkan permintaan, dan kemudian membuat resource_config.json file dalam instance HyperPod cluster, dan menyiapkan Slurm di cluster yang menjalankan skrip siklus hidup.

Topik berikut memandu Anda dan menyelami detail tentang cara mengatur file konfigurasi dan skrip siklus hidup agar berfungsi dengan baik selama HyperPod pembuatan klaster.