Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Kompatibilitas dengan SMDDP perpustakaan yang dioptimalkan untuk AWS infrastruktur
Anda dapat menggunakan pustaka paralelisme SageMaker model v2 (SMPv2) bersama dengan pustaka paralelisme data SageMaker terdistribusi (SMDDP) yang menawarkan operasi komunikasi AllGather
kolektif yang dioptimalkan untuk infrastruktur. AWS Dalam pelatihan terdistribusi, operasi komunikasi kolektif dirancang untuk menyinkronkan banyak GPU pekerja dan bertukar informasi di antara mereka. AllGather
adalah salah satu operasi komunikasi kolektif inti yang biasanya digunakan dalam paralelisme data sharded. Untuk mempelajari lebih lanjut tentang SMDDP AllGather
operasi, lihat Operasi kolektif SMDDP AllGather Mengoptimalkan operasi komunikasi kolektif semacam itu akan secara langsung berkontribusi pada end-to-end pelatihan yang lebih cepat tanpa efek samping pada konvergensi.
catatan
SMDDPPustaka mendukung instance P4 dan P4DE (lihat juga Kerangka kerja yang didukung, Wilayah AWS, dan tipe instance di perpustakaan). SMDDP
SMDDPPustaka terintegrasi secara native dengan PyTorch melalui lapisan grup proses
Untuk mengaktifkan SMDDP dan menggunakan AllGather
operasinya, Anda perlu menambahkan dua baris kode ke skrip pelatihan Anda sebagai bagian dariLangkah 1: Sesuaikan skrip PyTorch FSDP pelatihan Anda. Perhatikan bahwa Anda perlu menginisialisasi PyTorch Distributed dengan SMDDP backend terlebih dahulu, dan kemudian menjalankan inisialisasi. SMP
import torch.distributed as dist # Initialize with SMDDP import smdistributed.dataparallel.torch.torch_smddp dist.init_process_group(backend="smddp") # Replacing "nccl" # Initialize with SMP import torch.sagemaker as tsm tsm.init()
SageMaker Wadah Kerangka