Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Catatan rilis untuk perpustakaan paralelisme SageMaker model
Lihat catatan rilis berikut untuk melacak pembaruan terbaru untuk pustaka SageMaker model parallelism (SMP). Jika Anda memiliki pertanyaan lebih lanjut tentang SMP perpustakaan, hubungi tim SMP layanan dism-model-parallel-feedback@amazon.com
.
Pustaka paralelisme SageMaker model v2.5.0
Tanggal: 28 Agustus 2024
SMPpembaruan perpustakaan
Fitur baru
-
Menambahkan dukungan untuk pelatihan presisi campuran menggunakan format FP8 data pada instance P5 untuk model Mixtral.
-
Konfigurasi Mixtral yang didukung adalah 8x7B dan 8x22B. Untuk mempelajari selengkapnya, lihat Pelatihan presisi campuran dengan FP8 instans P5 menggunakan Transformer Engine.
-
-
Ditambahkan dukungan Paralelisme konteks untuk konfigurasi model berikut.
-
Llama-v2:7B dan 70B
-
Llama-v3:8B dan 70B
-
GPT-NeoX: 20B
-
-
Menambahkan dukungan untuk menyimpan pos pemeriksaan secara asinkron. Untuk mempelajari selengkapnya, lihat Checkpointing menggunakan SMP.
-
Support untuk menyimpan pos pemeriksaan ke S3 secara langsung tanpa menggunakan Amazon EBS atau server file.
-
Perbaikan bug
-
Menyelesaikan masalah yang menyebabkan kerugian awal yang tinggi secara tak terduga selama fine-tuning Llama saat memuat pos pemeriksaan model yang telah dilatih sebelumnya dan memanfaatkan paralelisme tensor.
Catatan
-
Untuk menggunakan checkpointing aktivasi untuk Mixtral dengan presisi FP8 campuran, Anda perlu memeriksa lapisan perhatian dan ahli secara terpisah. Untuk contoh pengaturannya dengan benar, lihat contoh skrip pelatihan
di repositori Amazon SageMaker Examples.
Masalah yang diketahui
-
Jenis penyeimbangan beban seimbang dalam konfigurasi MoE (torch.sagemaker.moe.moe_config.MoEConfig) saat ini tidak kompatibel dengan pos pemeriksaan aktivasi.
-
Dengan paralelisme konteks, GPT -NeOx menunjukkan regresi kinerja baik dalam pra-pelatihan maupun fine-tuning.
-
Untuk GPT -NeOX pada instans P4, memuat bobot secara langsung dari parameter tertunda yang diinisialisasi model transformasi menjadi model transformator Hugging Face menyebabkan ketidakcocokan kerugian pada langkah pertama.
SMPKontainer Docker
Tim SMP perpustakaan mendistribusikan kontainer Docker sebagai pengganti wadah SageMaker PyTorch kerangka kerja. Jika Anda menggunakan kelas PyTorch estimator di SageMaker SDK Python dan menentukan konfigurasi distribusi untuk SMP menggunakan v2 SageMaker , secara otomatis mengambil SMP kontainer Docker. Untuk menggunakan rilis SMP v2 ini, tingkatkan SageMaker Python Anda SDK ke v2.224.0 atau yang lebih baru.
Pembaruan mata uang
-
Memutakhirkan FlashAttention perpustakaan ke v2.5.8
-
Upgrade library Transformer Engine ke v1.8
Detail kontainer
-
SMPWadah Docker untuk PyTorch v2.3.1 dengan v12.1 CUDA
658645717510.dkr.ecr.
<region>
.amazonaws.com/smdistributed-modelparallel:2.3.1-gpu-py311-cu121Untuk daftar lengkap wilayah yang didukung, lihatWilayah AWS.
-
Paket pra-instal
-
SMPPerpustakaan v2.5.0
-
SMDDPPerpustakaan v2.3.0
-
CUDNNv8.9.7.29
-
FlashAttention v2.5.8
-
TransformerEngine v1.8
-
Megatron v0.7.0
-
Trafo Hugging Face v4.40.1
-
Pustaka Kumpulan Data Hugging Face v2.19.0
-
EFAv1.32.0
-
NCCLv2.21.5
-
SMPSaluran Conda
Bucket S3 berikut adalah saluran Conda publik dari SMP perpustakaan yang diselenggarakan oleh tim SMP layanan. Jika Anda ingin menginstal pustaka SMP v2 di lingkungan sumber daya komputasi yang sangat dapat disesuaikan seperti SageMaker HyperPod cluster, gunakan saluran Conda ini untuk menginstal pustaka dengan benar. SMP
-
https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/
Untuk informasi selengkapnya tentang saluran Conda secara umum, lihat Saluran
Pustaka paralelisme SageMaker model v2.4.0
Tanggal: 20 Juni 2024
SMPpembaruan perpustakaan
Perbaikan bug
-
Memperbaiki bug yang menyebabkan bentuk logit salah saat label tidak diteruskan di pass maju saat menggunakan SMP Transformer.
Pembaruan mata uang
-
Ditambahkan dukungan untuk PyTorch v2.3.1.
-
Ditambahkan dukungan untuk Python v3.11.
-
Menambahkan dukungan untuk perpustakaan Hugging Face Transformers v4.40.1.
Pengakhiran
-
Dukungan yang dihentikan untuk Python v3.10.
-
Dukungan yang dihentikan untuk versi pustaka Hugging Face Transformers sebelum v4.40.1.
Perubahan lainnya
-
Termasuk tambalan untuk mengaktifkan penyimpanan tensor de-duplikat pada peringkat yang berbeda. Untuk mempelajari lebih lanjut, lihat utas diskusi
di PyTorch GitHub repositori.
Masalah yang diketahui
-
Ada masalah yang diketahui bahwa kerugian mungkin melonjak dan kemudian berlanjut pada nilai kerugian yang lebih tinggi sambil menyempurnakan Llama-3 70B dengan paralelisme tensor.
SMPKontainer Docker
Tim SMP perpustakaan mendistribusikan kontainer Docker sebagai pengganti wadah SageMaker PyTorch kerangka kerja. Jika Anda menggunakan kelas PyTorch estimator di SageMaker SDK Python dan menentukan konfigurasi distribusi untuk SMP menggunakan v2 SageMaker , secara otomatis mengambil SMP kontainer Docker. Untuk menggunakan rilis SMP v2 ini, tingkatkan SageMaker Python Anda SDK ke v2.224.0 atau yang lebih baru.
Pembaruan mata uang
-
Memutakhirkan SMDDP perpustakaan ke v2.3.0.
-
Memutakhirkan NCCL perpustakaan ke v2.21.5.
-
Upgrade EFA perangkat lunak ke v1.32.0.
Pengakhiran
-
Menghentikan instalasi perpustakaan Torch Distributed Experimental (TorchDistX
).
Detail kontainer
-
SMPWadah Docker untuk PyTorch v2.3.1 dengan v12.1 CUDA
658645717510.dkr.ecr.
us-west-2
.amazonaws.com/smdistributed-modelparallel:2.3.1-gpu-py311-cu121 -
Paket pra-instal
-
SMPPerpustakaan v2.4.0
-
SMDDPPerpustakaan v2.3.0
-
CUDNNv8.9.7.29
-
FlashAttention v2.3.3
-
TransformerEngine v1.2.1
-
Trafo Hugging Face v4.40.1
-
Pustaka Kumpulan Data Hugging Face v2.19.0
-
EFAv1.32.0
-
NCCLv2.21.5
-
SMPSaluran Conda
Bucket S3 berikut adalah saluran Conda publik dari SMP perpustakaan yang diselenggarakan oleh tim SMP layanan. Jika Anda ingin menginstal pustaka SMP v2 di lingkungan sumber daya komputasi yang sangat dapat disesuaikan seperti SageMaker HyperPod cluster, gunakan saluran Conda ini untuk menginstal pustaka dengan benar. SMP
-
https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/
Untuk informasi selengkapnya tentang saluran Conda secara umum, lihat Saluran
Pustaka paralelisme SageMaker model v2.3.1
Tanggal: 9 Mei 2024
Perbaikan bug
-
Memperbaiki
ImportError
masalah saat menggunakanmoe_load_balancing=balanced
torch.sagemaker.moe.moe_config.MoEConfig paralelisme ahli. -
Memperbaiki masalah fine-tuning saat torch.sagemaker.transform panggilan dimunculkan
KeyError
saatload_state_dict_from_rank0
diaktifkan. -
Memperbaiki kesalahan out-of-memory (OOM) yang muncul saat memuat model Mixture of Experts (MoE) yang besar, seperti Mixtral 8x22B, untuk fine-tuning.
SMPKontainer Docker
Tim SMP perpustakaan mendistribusikan kontainer Docker sebagai pengganti wadah SageMaker PyTorch kerangka kerja. Rilis ini menggabungkan perbaikan bug yang disebutkan di atas ke dalam gambar Docker berikutSMP.
-
SMPWadah Docker untuk PyTorch v2.2.0 dengan v12.1 CUDA
658645717510.dkr.ecr.
us-west-2
.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121
Pustaka paralelisme SageMaker model v2.3.0
Tanggal: 11 April 2024
Fitur baru
-
Menambahkan fitur inti baru, paralelisme ahli, untuk mendukung model transformator Mixture of Experts. Untuk mempelajari selengkapnya, lihat Paralelisme ahli.
SMPKontainer Docker
Tim SMP perpustakaan mendistribusikan kontainer Docker sebagai pengganti wadah SageMaker PyTorch kerangka kerja. Jika Anda menggunakan kelas PyTorch estimator di SageMaker SDK Python dan menentukan konfigurasi distribusi untuk SMP menggunakan v2 SageMaker , secara otomatis mengambil SMP kontainer Docker. Untuk menggunakan rilis SMP v2 ini, tingkatkan SageMaker Python Anda SDK ke v2.214.4 atau yang lebih baru.
-
SMPWadah Docker untuk PyTorch v2.2.0 dengan v12.1 CUDA
658645717510.dkr.ecr.
us-west-2
.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121-
Paket pra-instal dalam wadah Docker ini
-
SMDDPPerpustakaan v2.2.0
-
CUDNNv8.9.5.29
-
FlashAttention v2.3.3
-
TransformerEngine v1.2.1
-
Trafo Hugging Face v4.37.1
-
Pustaka Kumpulan Data Hugging Face v2.16.1
-
MegaTron-inti 0,5.0
-
EFAv1.30.0
-
NCCLv2.19.4
-
-
Pustaka paralelisme SageMaker model v2.2.0
Tanggal: 7 Maret 2024
Fitur Baru
-
Menambahkan dukungan untuk FP8pelatihan model transformator Hugging Face berikut pada instans P5 dengan integrasi Transformer Engine:
-
GPT-NeoX
-
Llama 2
-
Perbaikan Bug
-
Memperbaiki bug di mana tensor tidak dijamin bersebelahan sebelum panggilan
AllGather
kolektif selama pelatihan paralelisme tensor.
Pembaruan Mata Uang
-
Ditambahkan dukungan untuk PyTorch v2.2.0.
-
Memutakhirkan SMDDP perpustakaan ke v2.2.0.
-
Memutakhirkan FlashAttention perpustakaan ke v2.3.3.
-
Memutakhirkan NCCL perpustakaan ke v2.19.4.
penghentian
-
Dukungan yang dihentikan untuk versi Transformer Engine sebelum v1.2.0.
Masalah yang diketahui
-
SMPPembongkaran aktivasiFitur saat ini tidak berfungsi. Gunakan pembongkaran PyTorch aktivasi asli sebagai gantinya.
Perubahan lainnya
-
Termasuk tambalan untuk memperbaiki regresi kinerja yang dibahas di utas masalah di https://github.com/pytorch/pytorch/issues/117748 di repositori
. PyTorch GitHub
SMPKontainer Docker
Tim SMP perpustakaan mendistribusikan kontainer Docker sebagai pengganti wadah SageMaker PyTorch kerangka kerja. Jika Anda menggunakan kelas PyTorch estimator di SageMaker SDK Python dan menentukan konfigurasi distribusi untuk SMP menggunakan v2 SageMaker , secara otomatis mengambil SMP kontainer Docker. Untuk menggunakan rilis SMP v2 ini, tingkatkan SageMaker Python Anda SDK ke v2.212.0 atau yang lebih baru.
-
SMPWadah Docker untuk PyTorch v2.2.0 dengan v12.1 CUDA
658645717510.dkr.ecr.
us-west-2
.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121-
Tersedia untuk instans P4d, P4de, dan P5
-
Paket pra-instal dalam wadah Docker ini
-
SMDDPPerpustakaan v2.2.0
-
CUDNNv8.9.5.29
-
FlashAttention v2.3.3
-
TransformerEngine v1.2.1
-
Trafo Hugging Face v4.37.1
-
Pustaka Kumpulan Data Hugging Face v2.16.1
-
EFAv1.30.0
-
NCCLv2.19.4
-
-
Pustaka paralelisme SageMaker model v2.1.0
Tanggal: 6 Februari 2024
Pembaruan Mata Uang
-
Ditambahkan dukungan untuk PyTorch v2.1.2.
penghentian
-
Dukungan yang dihentikan untuk Hugging Face Transformers v4.31.0.
Masalah yang diketahui
-
Masalah ditemukan bahwa fine-tuning model Hugging Face Llama 2
attn_implementation=flash_attention_2
dengan FSDP dan menyebabkan model menyimpang. Untuk referensi, lihat tiket terbitan di repositoriHugging Face GitHub Transformers. Untuk menghindari masalah divergensi, gunakan attn_implementation=sdpa
. Atau, gunakan implementasi model SMP transformator dengan menyiapkanuse_smp_implementation=True
.
SMPKontainer Docker
Tim SMP perpustakaan mendistribusikan kontainer Docker sebagai pengganti wadah SageMaker PyTorch kerangka kerja. Jika Anda menggunakan kelas PyTorch estimator di SageMaker SDK Python dan menentukan konfigurasi distribusi untuk SMP menggunakan v2 SageMaker , secara otomatis mengambil SMP kontainer Docker. Untuk menggunakan rilis SMP v2 ini, tingkatkan SageMaker Python Anda SDK ke v2.207.0 atau yang lebih baru.
-
SMPWadah Docker untuk PyTorch v2.1.2 dengan v12.1 CUDA
658645717510.dkr.ecr.
us-west-2
.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121-
Tersedia untuk instans P4d, P4de, dan P5
-
Paket pra-instal dalam wadah Docker ini
-
SMDDPPerpustakaan v2.1.0
-
CUDNNv8.9.5.29
-
FlashAttention v2.3.3
-
TransformerEngine v1.2.1
-
Trafo Hugging Face v4.37.1
-
Pustaka Kumpulan Data Hugging Face v2.16.1
-
EFAv1.30.0
-
-
SMPSaluran Conda
Bucket S3 berikut adalah saluran Conda publik yang diselenggarakan oleh tim SMP layanan. Jika Anda ingin menginstal pustaka SMP v2 di lingkungan sumber daya komputasi yang sangat dapat disesuaikan seperti SageMaker HyperPod cluster, gunakan saluran Conda ini untuk menginstal pustaka dengan benar. SMP
-
https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/
Untuk informasi selengkapnya tentang saluran Conda secara umum, lihat Saluran
Pustaka paralelisme SageMaker model v2.0.0
Tanggal: 19 Desember 2023
Fitur baru
Merilis SageMaker model parallelism (SMP) library v2.0.0 dengan penawaran baru berikut.
-
torch.sagemaker
Paket baru, sepenuhnya dirubah darismdistributed.modelparallel.torch
paket sebelumnya di v1.x. SMP -
Support untuk PyTorch 2.0.1.
-
Support untuk PyTorch FSDP.
-
Implementasi paralelisme tensor dengan mengintegrasikan dengan perpustakaan Transformer Engine.
-
Support untuk SageMaker Training dan SageMaker HyperPod.
Melanggar perubahan
-
SMPv2 mengubah APIs seluruhnya dan menyediakan paket.
torch.sagemaker
Sebagian besar, Anda hanya perlu menginisialisasi dengantorch.sagemaker.init()
modul dan melewati parameter konfigurasi paralel model. Dengan paket baru ini, Anda dapat secara signifikan menyederhanakan modifikasi kode dalam skrip pelatihan Anda. Untuk mempelajari lebih lanjut tentang mengadaptasi skrip pelatihan Anda untuk menggunakan SMP v2, lihatGunakan perpustakaan paralelisme SageMaker model v2. -
Jika Anda telah menggunakan SMP v1 untuk melatih model Hugging Face Transformer dan ingin menggunakan kembali model di SMP v2, lihat. Tingkatkan dari SMP v1 ke v2 SMP
-
Untuk PyTorch FSDP pelatihan, Anda harus menggunakan SMP v2.
Masalah yang diketahui
-
Checkpointing aktivasi saat ini hanya berfungsi dengan kebijakan pembungkus berikut. FSDP
-
auto_wrap_policy = functools.partial(transformer_auto_wrap_policy, ...)
-
-
Untuk menggunakanPembongkaran aktivasi, jenis checkpointing FSDP aktivasi harus. REENTRANT
-
Saat menjalankan dengan tensor parallel diaktifkan dengan derajat paralel data sharded yang disetel ke
1
, Anda harus menggunakan.backend = nccl
Opsismddp
backend tidak didukung dalam skenario ini. -
Mesin Transformer
diperlukan untuk digunakan PyTorch dengan SMP perpustakaan bahkan ketika tidak menggunakan paralelisme tensor.
Perubahan lainnya
-
Mulai dari rilis ini, dokumentasi untuk pustaka paralelisme SageMaker model sepenuhnya tersedia di Panduan SageMaker Pengembang Amazon ini. Untuk mendukung panduan pengembang lengkap ini untuk SMP v2 di Panduan SageMaker Pengembang Amazon, referensi tambahan untuk SMP v1.x
dalam dokumentasi SageMaker SDKPython tidak digunakan lagi. Jika Anda masih memerlukan dokumentasi untuk SMP v1.x, panduan pengembang untuk v1.x tersedia di(Diarsipkan) perpustakaan SageMaker paralelisme model v1.x, dan referensi SMP v1.x pustaka Python tersedia di dokumentasi SMP Python v2.199.0. SageMaker SDK
Pengakhiran
-
Dukungan yang dihentikan untuk TensorFlow.
-
Tidak ada dukungan paralelisme pipa di SMP v2.
-
Tidak ada dukungan untuk DeepSpeed perpustakaan yang mendukung asli PyTorchFSDP.
SMPKontainer Docker
Tim SMP perpustakaan mendistribusikan kontainer Docker sebagai pengganti wadah SageMaker PyTorch kerangka kerja. Jika Anda menggunakan kelas PyTorch estimator di SageMaker SDK Python dan menentukan konfigurasi distribusi untuk SMP menggunakan v2 SageMaker , secara otomatis mengambil SMP kontainer Docker. Untuk menggunakan rilis SMP v2 ini, tingkatkan SageMaker Python Anda SDK ke v2.207.0 atau yang lebih baru.
-
SMPWadah Docker untuk PyTorch v2.0.1 dengan v12.1 CUDA
658645717510.dkr.ecr.
us-west-2
.amazonaws.com/smdistributed-modelparallel:2.0.1-gpu-py310-cu121