Kerangka kerja yang didukung dan Wilayah AWS - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Kerangka kerja yang didukung dan Wilayah AWS

Sebelum menggunakan pustaka paralelisme SageMaker model v2 (SMP v2), periksa kerangka kerja dan jenis instance yang didukung dan tentukan apakah ada cukup kuota di akun Anda dan. AWS Wilayah AWS

catatan

Untuk memeriksa pembaruan terbaru dan catatan rilis perpustakaan, lihatCatatan rilis untuk perpustakaan paralelisme SageMaker model.

Kerangka kerja yang didukung

SMP v2 mendukung kerangka pembelajaran mendalam berikut dan tersedia melalui wadah SMP Docker dan saluran SMP Conda. Saat Anda menggunakan kelas estimator kerangka kerja di SageMaker Python SDK dan menentukan konfigurasi distribusi untuk menggunakan SMP v2 SageMaker , secara otomatis mengambil kontainer SMP Docker. Untuk menggunakan SMP v2, kami menyarankan agar Anda selalu memperbarui SDK SageMaker Python di lingkungan pengembangan Anda.

PyTorch versi yang didukung oleh SageMaker pustaka paralelisme model

PyTorch versi SageMaker model versi perpustakaan paralelisme URI gambar SMP Docker
v2.3.1 smdistributed-modelparallel==v2.4.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.3.1-gpu-py311-cu121
v2.2.0 smdistributed-modelparallel==v2.3.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121
smdistributed-modelparallel==v2.2.0 Tidak tersedia. Gunakan gambar SMP v2.3.0, yang kompatibel ke belakang.
v2.1.2 smdistributed-modelparallel==v2.1.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121
v2.0.1 smdistributed-modelparallel==v2.0.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.0.1-gpu-py310-cu121

Saluran SMP Conda

Bucket S3 berikut adalah saluran Conda publik yang diselenggarakan oleh tim layanan SMP. Jika Anda ingin menginstal perpustakaan SMP v2 di lingkungan seperti SageMaker HyperPod cluster, gunakan saluran Conda ini untuk menginstal pustaka SMP dengan benar.

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/

Untuk informasi selengkapnya tentang saluran Conda secara umum, lihat Saluran di dokumentasi Conda.

catatan

Untuk menemukan versi sebelumnya dari perpustakaan SMP v1.x dan DLC pra-paket, lihat Kerangka Kerja yang Didukung di dokumentasi SMP v1.

Gunakan SMP v2 dengan pustaka open source

Pustaka SMP v2 bekerja dengan pustaka open source PyTorch berbasis lainnya seperti PyTorch Lightning, Hugging Face Transformers, dan Hugging Face Accelerate, karena SMP v2 kompatibel dengan API FSDP. PyTorch Jika Anda memiliki pertanyaan lebih lanjut tentang penggunaan perpustakaan SMP dengan pustaka pihak ketiga lainnya, hubungi tim layanan SMP di. sm-model-parallel-feedback@amazon.com

Wilayah AWS

SMP v2 tersedia di berikut Wilayah AWS ini. Jika Anda ingin menggunakan URI gambar SMP Docker atau saluran SMP Conda, periksa daftar berikut dan pilih yang Wilayah AWS cocok dengan milik Anda, dan perbarui URI gambar atau URL saluran yang sesuai.

  • ap-northeast-1

  • ap-northeast-2

  • ap-northeast-3

  • ap-south-1

  • ap-southeast-1

  • ap-southeast-2

  • ca-sentral-1

  • eu-central-1

  • eu-north-1

  • eu-west-1

  • eu-west-2

  • eu-west-3

  • sa-east-1

  • us-east-1

  • us-east-2

  • us-west-1

  • us-west-2

Tipe instans yang didukung

SMP v2 membutuhkan salah satu dari jenis instans ML berikut.

Jenis instans
ml.p4d.24xlarge
ml.p4de.24xlarge
ml.p5.48xlarge
Tip

Mulai dari SMP v2.2.0 mendukung PyTorch v2.2.0 dan yang lebih baru, tersedia. Pelatihan presisi campuran dengan FP8 instans P5 menggunakan Transformer Engine

Untuk spesifikasi jenis instans pembelajaran SageMaker mesin secara umum, lihat bagian Komputasi Akselerasi di halaman Jenis Instans Amazon EC2. Untuk informasi tentang harga instans, lihat SageMakerHarga Amazon.

Jika Anda menemukan pesan galat yang serupa dengan berikut ini, ikuti petunjuk di Meminta peningkatan kuota dalam Panduan Pengguna Service AWS Quotas.

ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.