Menggunakan UI SageMaker HyperPod konsol - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menggunakan UI SageMaker HyperPod konsol

Buat SageMaker HyperPod cluster pertama Anda menggunakan UI SageMaker HyperPod konsol.

Buat SageMaker HyperPod cluster pertama Anda dengan Slurm

Tutorial berikut menunjukkan cara membuat SageMaker HyperPod cluster baru dan mengaturnya dengan Slurm melalui UI konsol. SageMaker Mengikuti tutorial, Anda akan membuat HyperPod cluster dengan tiga node Slurm,, my-controller-groupmy-login-group, dan. worker-group-1

  1. Buka SageMaker konsol Amazon di https://console.aws.amazon.com/sagemaker/.

  2. Pilih HyperPod Cluster di panel navigasi kiri.

  3. Pada halaman SageMaker HyperPod Clusters, pilih Create cluster.

  4. Di Langkah 1: Pengaturan cluster, tentukan nama untuk cluster baru. Lewati bagian Tag.

  5. Pada Langkah 2: Grup instance, tambahkan grup instance. Setiap grup instans dapat dikonfigurasi secara berbeda, dan Anda dapat membuat klaster heterogen yang terdiri dari beberapa grup instans dengan berbagai jenis instance. Agar skrip konfigurasi siklus hidup berjalan di grup instans selama pembuatan klaster, Anda dapat memulai dengan menggunakan contoh skrip siklus hidup yang disediakan di repositori Pelatihan Terdistribusi Awsome. GitHub

    1. Untuk nama grup Instance, tentukan nama untuk grup instance. Untuk tutorial ini, buat tiga grup instance bernamamy-controller-group,my-login-group, danworker-group-1.

    2. Untuk jenis instance Select, pilih instance untuk grup instance. Untuk tutorial ini, pilih ml.c5.xlarge untukmy-controller-group, ml.m5.4xlarge untukmy-login-group, dan ml.trn1.32xlarge untukworker-group-1.

      Pastikan Anda memilih jenis instans dengan kuota yang cukup di akun Anda, atau minta kuota tambahan dengan mengikuti di. SageMaker HyperPod kuota

    3. Untuk Kuantitas, tentukan bilangan bulat yang tidak melebihi kuota instance untuk penggunaan klaster. Untuk tutorial ini, masukkan 1 untuk ketiga grup.

    4. Untuk jalur S3 ke file skrip siklus hidup, masukkan jalur Amazon S3 tempat skrip siklus hidup Anda disimpan. Jika Anda tidak memiliki skrip siklus hidup, ikuti sublangkah berikut untuk menggunakan skrip siklus hidup dasar yang disediakan oleh tim layanan. SageMaker HyperPod

      1. Kloning repositori Pelatihan GitHub Terdistribusi Awsome.

        git clone https://github.com/aws-samples/awsome-distributed-training/
      2. Di bawah 1.architectures/5.sagemaker_hyperpods/LifecycleScripts/base-config, Anda dapat menemukan satu set skrip siklus hidup dasar. Untuk mempelajari lebih lanjut tentang skrip siklus hidup, lihat juga. Kustomisasi SageMaker HyperPod cluster menggunakan skrip siklus hidup

      3. Tulis file konfigurasi Slurm dan simpan sebagai file. provisioning_params.json Dalam file, tentukan parameter konfigurasi Slurm dasar untuk menetapkan node Slurm dengan benar ke grup instance cluster. SageMaker HyperPod Misalnya, provisioning_params.json harus serupa dengan berikut ini berdasarkan grup instance HyperPod cluster yang dikonfigurasi melalui langkah sebelumnya 5a, 5b, dan 5c.

        { "version": "1.0.0", "workload_manager": "slurm", "controller_group": "my-controller-group", "login_group": "my-login-group", "worker_groups": [ { "instance_group_name": "worker-group-1", "partition_name": "partition-1" } ] }
      4. Unggah skrip ke bucket Amazon S3 Anda. Buat bucket S3 dengan jalur dalam format berikut:s3://sagemaker-<unique-s3-bucket-name>/<lifecycle-script-directory>/src. Anda dapat membuat bucket ini menggunakan konsol Amazon S3.

        catatan

        Anda harus sagemaker- mengawali jalur bucket S3, karena IAMperan untuk SageMaker HyperPod with AmazonSageMakerClusterInstanceRolePolicy hanya mengizinkan prinsipal untuk mengakses bucket S3 dengan awalan khusus ini.

    5. Untuk jalur Direktori ke skrip siklus hidup yang sedang dibuat, masukkan nama file skrip siklus hidup di bawah jalur S3 ke file skrip siklus hidup.

    6. Untuk IAMperan, pilih IAM peran yang Anda buat menggunakan bagian AmazonSageMakerClusterInstanceRolePolicy from theIAMperan untuk SageMaker HyperPod.

    7. Di bawah Konfigurasi lanjutan, Anda dapat mengatur konfigurasi opsional berikut.

      1. (Opsional) Untuk Thread per core, tentukan 1 untuk menonaktifkan multi-threading dan 2 untuk mengaktifkan multi-threading. Untuk mengetahui jenis instans mana yang mendukung multi-threading, lihat tabel referensi CPUinti dan utas per CPU inti per jenis instans di Panduan Pengguna Amazon Elastic Compute Cloud.

      2. (Opsional) Untuk konfigurasi penyimpanan instance tambahan, tentukan bilangan bulat antara 1 dan 16384 untuk mengatur ukuran volume Elastic Block Store (EBS) tambahan dalam gigabyte (GB). EBSVolume dilampirkan ke setiap instance dari grup instance. Jalur pemasangan default untuk EBS volume tambahan adalah/opt/sagemaker. Setelah cluster berhasil dibuat, Anda dapat SSH masuk ke instance cluster (node) dan memverifikasi apakah EBS volume dipasang dengan benar dengan menjalankan perintah. df -h Melampirkan EBS volume tambahan menyediakan penyimpanan yang stabil, off-instance, dan bertahan secara independen, seperti yang dijelaskan di bagian EBSvolume Amazon di Panduan Pengguna Amazon Elastic Block Store.

  6. Pada Langkah 3: Konfigurasi lanjutan, atur pengaturan jaringan di dalam, dan masuk dan keluar dari, cluster. Pilih sendiri VPC jika Anda sudah memiliki satu yang memberikan SageMaker akses ke AndaVPC. Jika Anda tidak memilikinya tetapi ingin membuat yang baruVPC, ikuti petunjuk di Buat VPC di Panduan Pengguna Amazon Virtual Private Cloud. Anda dapat membiarkannya sebagai tidak VPC menggunakan default SageMaker VPC.

  7. Pada Langkah 4: Tinjau dan buat, tinjau konfigurasi yang telah Anda tetapkan dari langkah 1 hingga 3 dan selesaikan pengiriman permintaan pembuatan cluster.

  8. Cluster baru akan muncul di bawah Cluster di panel utama konsol. SageMaker HyperPod Anda dapat memeriksa statusnya yang ditampilkan di bawah kolom Status.

  9. Setelah status cluster berubahInService, Anda dapat mulai masuk ke node cluster. Untuk mengakses node cluster dan mulai menjalankan beban kerja ML, lihatPekerjaan di SageMaker HyperPod cluster.

Hapus cluster dan sumber daya bersih

Setelah Anda berhasil menguji pembuatan SageMaker HyperPod klaster, klaster terus berjalan di InService status hingga Anda menghapus klaster. Kami menyarankan Anda menghapus klaster yang dibuat menggunakan SageMaker instans sesuai permintaan saat tidak digunakan untuk menghindari biaya layanan lanjutan berdasarkan harga sesuai permintaan. Dalam tutorial ini, Anda telah membuat sebuah cluster yang terdiri dari dua kelompok instance. Salah satunya menggunakan instance C5, jadi pastikan Anda menghapus cluster dengan mengikuti instruksi diHapus SageMaker HyperPod klaster.

Namun, jika Anda telah membuat klaster dengan kapasitas komputasi cadangan, status klaster tidak memengaruhi penagihan layanan.

Untuk membersihkan skrip siklus hidup dari bucket S3 yang digunakan untuk tutorial ini, buka bucket S3 yang Anda gunakan selama pembuatan cluster dan hapus file seluruhnya.

Jika Anda telah menguji menjalankan beban kerja apa pun di cluster, pastikan apakah Anda telah mengunggah data apa pun atau jika pekerjaan Anda menyimpan artefak apa pun ke bucket S3 atau layanan sistem file yang berbeda seperti Amazon FSx for Lustre dan Amazon Elastic File System. Untuk mencegah biaya yang timbul, hapus semua artefak dan data dari penyimpanan atau sistem file.