Kerangka kerja yang didukung, Wilayah AWS, dan tipe instance - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Kerangka kerja yang didukung, Wilayah AWS, dan tipe instance

Sebelum menggunakan library parallelism data SageMaker terdistribusi (SMDDP), periksa kerangka kerja dan tipe instance yang didukung dan apakah ada cukup kuota di akun Anda dan. AWS Wilayah AWS

Kerangka kerja yang didukung

Tabel berikut menunjukkan kerangka pembelajaran mendalam dan versinya yang SageMaker didukung SMDDP. Pustaka SMDDP tersedia dalam SageMaker Framework Containers, terintegrasi dalam wadah Docker yang didistribusikan oleh pustaka SageMaker model paralelisme (SMP) v2, atau dapat diunduh sebagai file biner.

catatan

Untuk memeriksa pembaruan terbaru dan catatan rilis perpustakaan SMDDP, lihat. SageMaker catatan rilis perpustakaan paralelisme data

PyTorch

PyTorch versi Versi perpustakaan SMDDP SageMaker Gambar Framework Container yang sudah diinstal sebelumnya dengan SMDDP Gambar SMP Docker yang sudah diinstal sebelumnya dengan SMDDP URL dari file biner**
v2.3.0 smdistributed-dataparallel==v2.3.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker Saat ini tidak tersedia https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl
v2.2.0 smdistributed-dataparallel==v2.2.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.2.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl
v2.1.0 smdistributed-dataparallel==v2.1.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl
v2.0.1 smdistributed-dataparallel==v2.0.1 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker Tidak tersedia https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl
v2.0.0 smdistributed-dataparallel==v1.8.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-sagemaker Tidak tersedia https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.0/cu118/2023-03-20/smdistributed_dataparallel-1.8.0-cp310-cp310-linux_x86_64.whl
v1.13.1 smdistributed-dataparallel==v1.7.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemaker Tidak tersedia https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.13.1/cu117/2023-01-09/smdistributed_dataparallel-1.7.0-cp39-cp39-linux_x86_64.whl
v1.12.1 smdistributed-dataparallel==v1.6.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.1-gpu-py38-cu113-ubuntu20.04-sagemaker Tidak tersedia https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.1/cu113/2022-12-05/smdistributed_dataparallel-1.6.0-cp38-cp38-linux_x86_64.whl
v1.12.0 smdistributed-dataparallel==v1.5.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker Tidak tersedia https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl
v1.11.0 smdistributed-dataparallel==v1.4.1 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.11.0-gpu-py38-cu113-ubuntu20.04-sagemaker Tidak tersedia https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.11.0/cu113/2022-04-14/smdistributed_dataparallel-1.4.1-cp38-cp38-linux_x86_64.whl

** URL dari file biner adalah untuk menginstal perpustakaan SMDDP dalam wadah khusus. Untuk informasi selengkapnya, lihat Buat wadah Docker Anda sendiri dengan pustaka paralel data SageMaker terdistribusi.

catatan

Pustaka SMDDP tersedia di Wilayah AWS tempat SageMaker Framework Containers dan gambar SMP Docker berada dalam layanan.

catatan

Pustaka SMDDP v1.4.0 dan yang lebih baru berfungsi sebagai backend paralelisme data terdistribusi ( PyTorch torch.distributed) (torch.parallel. DistributedDataParalel). Sesuai dengan perubahan, API smdistributed berikut untuk paket PyTorch terdistribusi telah usang.

Jika Anda perlu menggunakan versi pustaka sebelumnya (v1.3.0 atau sebelumnya), lihat dokumentasi paralelisme data SageMaker terdistribusi yang diarsipkan dalam dokumentasi Python SageMaker SDK.

PyTorch Petir

Pustaka SMDDP tersedia untuk PyTorch Lightning di SageMaker Framework Container berikut untuk PyTorch dan wadah SMP Docker.

PyTorch Petir v2

PyTorch Versi petir PyTorch versi Versi perpustakaan SMDDP SageMaker Gambar Framework Container yang sudah diinstal sebelumnya dengan SMDDP Gambar SMP Docker yang sudah diinstal sebelumnya dengan SMDDP URL dari file biner**
2.2.5 2.3.0 smdistributed-dataparallel==v2.3.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker Saat ini tidak tersedia https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl
2.2.0 2.2.0 smdistributed-dataparallel==v2.2.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.2.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl
2.1.2 2.1.0 smdistributed-dataparallel==v2.1.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl
2.1.0 2.0.1 smdistributed-dataparallel==v2.0.1 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker Tidak tersedia https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl

PyTorch Petir v1

PyTorch Versi petir PyTorch versi Versi perpustakaan SMDDP SageMaker Gambar Framework Container yang sudah diinstal sebelumnya dengan SMDDP URL dari file biner**

1.7.2

1.7.0

1.6.4

1.6.3

1.5.10

1.12.0 smdistributed-dataparallel==v1.5.0 763104351884.dkr.ecr. <region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl

** URL dari file biner adalah untuk menginstal perpustakaan SMDDP dalam wadah khusus. Untuk informasi selengkapnya, lihat Buat wadah Docker Anda sendiri dengan pustaka paralel data SageMaker terdistribusi.

catatan

PyTorch Lightning dan perpustakaan utilitasnya seperti Lightning Bolts tidak diinstal sebelumnya di DLC. PyTorch Ketika Anda membangun SageMaker PyTorch estimator dan mengajukan permintaan pekerjaan pelatihan di Langkah 2, Anda perlu menyediakan requirements.txt untuk menginstal pytorch-lightning dan lightning-bolts dalam wadah SageMaker PyTorch pelatihan.

# requirements.txt pytorch-lightning lightning-bolts

Untuk informasi selengkapnya tentang menentukan direktori sumber untuk menempatkan requirements.txt file bersama dengan skrip pelatihan dan pengiriman pekerjaan, lihat Menggunakan pustaka pihak ketiga dalam dokumentasi Amazon Python SageMaker SDK.

Trafo Hugging Face

AWS Deep Learning Containers untuk Hugging Face menggunakan SageMaker Wadah Pelatihan PyTorch untuk TensorFlow dan sebagai gambar dasarnya. Untuk mencari versi pustaka Hugging Face Transformers dan PyTorch dipasangkan TensorFlow dan versi, lihat Wadah Wajah Pelukan terbaru dan Versi Wadah Wajah Pelukan Sebelumnya.

TensorFlow (usang)

penting

Pustaka SMDDP menghentikan dukungan untuk TensorFlow dan tidak lagi tersedia di DLC selambat-lambatnya v2.11.0. TensorFlow Tabel berikut mencantumkan DLC sebelumnya TensorFlow dengan pustaka SMDDP diinstal.

TensorFlow versi Versi perpustakaan SMDDP
2.9.1, 2.10.1, 2.11.0 smdistributed-dataparallel==v1.4.1
2.8.3 smdistributed-dataparallel==v1.3.0

Wilayah AWS

Pustaka SMDDP tersedia di semua Wilayah AWS tempat AWS Deep Learning Containers untuk SageMaker dan gambar SMP Docker berada dalam layanan.

Tipe instans yang didukung

Pustaka SMDDP membutuhkan salah satu jenis contoh berikut.

Jenis instans
ml.p3dn.24xlarge*
ml.p4d.24xlarge
ml.p4de.24xlarge
Tip

Untuk menjalankan pelatihan terdistribusi dengan benar pada jenis instans yang mendukung EFA, Anda harus mengaktifkan lalu lintas antar instans dengan menyiapkan grup keamanan VPC Anda untuk memungkinkan semua lalu lintas masuk dan keluar ke dan dari grup keamanan itu sendiri. Untuk mempelajari cara mengatur aturan grup keamanan, lihat Langkah 1: Mempersiapkan grup keamanan berkemampuan EFA di Panduan Pengguna Amazon EC2.

penting

* Perpustakaan SMDDP telah menghentikan dukungan untuk mengoptimalkan operasi komunikasi kolektifnya pada instans P3. Meskipun Anda masih dapat menggunakan AllReduce kolektif SMDDP yang dioptimalkan pada ml.p3dn.24xlarge instance, tidak akan ada dukungan pengembangan lebih lanjut untuk meningkatkan kinerja pada jenis instance ini. Perhatikan bahwa AllGather kolektif yang dioptimalkan SMDDP hanya tersedia untuk instance P4.

Untuk spesifikasi jenis instans, lihat bagian Komputasi Akselerasi di halaman Jenis Instans Amazon EC2. Untuk informasi tentang harga instans, lihat SageMaker Harga Amazon.

Jika Anda menemukan pesan galat yang mirip dengan berikut ini, ikuti petunjuk di Minta peningkatan kuota layanan untuk SageMaker sumber daya.

ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.