Kompatibilitas dengan SMDDP perpustakaan yang dioptimalkan untuk AWS infrastruktur

Anda dapat menggunakan pustaka paralelisme SageMaker model v2 (SMPv2) bersama dengan pustaka paralelisme data SageMaker terdistribusi (SMDDP) yang menawarkan operasi komunikasi AllGather kolektif yang dioptimalkan untuk infrastruktur. AWS Dalam pelatihan terdistribusi, operasi komunikasi kolektif dirancang untuk menyinkronkan banyak GPU pekerja dan bertukar informasi di antara mereka. AllGatheradalah salah satu operasi komunikasi kolektif inti yang biasanya digunakan dalam paralelisme data sharded. Untuk mempelajari lebih lanjut tentang SMDDP AllGather operasi, lihat Operasi kolektif SMDDP AllGather Mengoptimalkan operasi komunikasi kolektif semacam itu akan secara langsung berkontribusi pada end-to-end pelatihan yang lebih cepat tanpa efek samping pada konvergensi.

catatan

SMDDPPustaka mendukung instance P4 dan P4DE (lihat juga Kerangka kerja yang didukung, Wilayah AWS, dan tipe instance di perpustakaan). SMDDP

SMDDPPustaka terintegrasi secara native dengan PyTorch melalui lapisan grup proses. Untuk menggunakan SMDDP perpustakaan, Anda hanya perlu menambahkan dua baris kode ke skrip pelatihan Anda. Ini mendukung kerangka pelatihan apa pun seperti SageMaker Model Parallelism Library,, PyTorch FSDP dan. DeepSpeed

Untuk mengaktifkan SMDDP dan menggunakan AllGather operasinya, Anda perlu menambahkan dua baris kode ke skrip pelatihan Anda sebagai bagian dariLangkah 1: Sesuaikan skrip PyTorch FSDP pelatihan Anda. Perhatikan bahwa Anda perlu menginisialisasi PyTorch Distributed dengan SMDDP backend terlebih dahulu, dan kemudian menjalankan inisialisasi. SMP


import torch.distributed as dist

# Initialize with SMDDP
import smdistributed.dataparallel.torch.torch_smddp
dist.init_process_group(backend="smddp") # Replacing "nccl"

 # Initialize with SMP
import torch.sagemaker as tsm
tsm.init()

SageMaker Wadah Kerangka untuk PyTorch (lihat juga Kerangka kerja yang didukung dan Wilayah AWS oleh SMP v2 dan Kerangka kerja yang didukung, Wilayah AWS, dan tipe instance oleh SMDDP perpustakaan) sudah dikemas sebelumnya dengan SMP biner dan biner. SMDDP Untuk mempelajari lebih lanjut tentang SMDDP perpustakaan, lihatJalankan pelatihan terdistribusi dengan SageMaker pustaka paralelisme data terdistribusi.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Paralelisme konteks

Pelatihan presisi campuran