Paralelisme ahli - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Paralelisme ahli

Model Mixture of Experts (MoE) adalah jenis model transformator yang menggunakan pendekatan jarang, membuatnya lebih ringan untuk pelatihan dibandingkan dengan melatih model padat tradisional. Dalam arsitektur jaringan saraf MoE ini, hanya sebagian dari komponen model yang disebut ahli yang digunakan untuk setiap input. Pendekatan ini menawarkan beberapa keuntungan, termasuk pelatihan yang lebih efisien dan inferensi yang lebih cepat, bahkan dengan ukuran model yang lebih besar. Dengan kata lain, dengan anggaran komputasi yang sama untuk melatih model padat penuh, Anda dapat memasukkan model atau kumpulan data yang lebih besar saat menggunakan MoE.

Model MoE terdiri dari beberapa ahli, masing-masing terdiri dari jaringan saraf, biasanya jaringan feed-forward (). FFN Jaringan gerbang yang disebut router menentukan token mana yang dikirim ke ahli mana. Para ahli ini mengkhususkan diri dalam memproses aspek-aspek spesifik dari data input, memungkinkan model untuk melatih lebih cepat, mengurangi biaya komputasi, sambil mencapai kualitas kinerja yang sama dengan model padat mitranya. Untuk mempelajari lebih lanjut tentang Campuran Ahli secara umum, lihat blog Menerapkan Campuran Ahli dalam LLM Arsitektur di situs web NVIDIA pengembang.

Paralelisme ahli adalah jenis paralelisme yang menangani para ahli pemisahan model MoE di seluruh perangkat. GPU

SMPv2 terintegrasi dengan NVIDIAMegatron untuk menerapkan paralelisme ahli untuk mendukung pelatihan model MoE, dan berjalan di atas. PyTorch FSDP APIs Anda terus menggunakan kode PyTorch FSDP pelatihan Anda apa adanya dan mengaktifkan paralelisme SMP ahli untuk melatih model MoE.

Model Hugging Face Transformer kompatibel SMP dengan paralelisme ahli

SMPv2 saat ini menawarkan dukungan paralelisme ahli untuk model transformator Hugging Face berikut.

Konfigurasikan paralelisme ahli

Untukexpert_parallel_degree, Anda memilih nilai untuk tingkat paralelisme ahli. Nilai harus merata membagi jumlah GPUs di cluster Anda. Misalnya, untuk membelah model Anda saat menggunakan instance dengan 8GPUs, pilih 2, 4, atau 8. Kami menyarankan Anda memulai dengan jumlah kecil, dan secara bertahap meningkatkannya sampai model pas di GPU memori.

Cuplikan kode berikut menunjukkan cara menambahkan modul SMP inisialisasi torch.sagemaker.init() ke skrip pelatihan Anda dan menyiapkan kamus SMP konfigurasi dalam JSON format untuk pelatihan peluncur pekerjaan sambil mengikuti proses dua langkah yang diperkenalkan. Gunakan perpustakaan paralelisme SageMaker model v2 Anda tidak perlu membuat perubahan apa pun pada PyTorch model atau PyTorch FSDPkonfigurasi Anda. Untuk informasi tentang parameter expert_parallel_degree, lihat SMPParameter konfigurasi fitur inti v2.

catatan

Anda dapat menggunakan paralelisme ahli dengan. Paralelisme data sharded hibrida Perhatikan bahwa paralelisme ahli saat ini tidak kompatibel dengan paralelisme tensor.

catatan

Fitur pelatihan paralelisme ahli ini tersedia dalam kombinasi perpustakaan SageMaker dan perpustakaan berikut: PyTorch

  • SMPv2.3.0 dan yang lebih baru

  • SageMaker Python SDK v2.214.4 dan yang lebih baru

  • PyTorch v2.2.0 dan yang lebih baru

Dalam skrip pelatihan Anda

Sebagai bagian dari Langkah 1, inisialisasi skrip Anda dengan torch.sagemaker.init() untuk mengaktifkan SMP v2 dan membungkus model Anda dengan torch.sagemaker.transformAPI, menambahkan config parameter ke API untuk mengaktifkan MoE. Cuplikan kode berikut menunjukkan cara mengaktifkan SMP MoE untuk kelas model generik yang AutoModelForCausalLM menarik konfigurasi model transformator MoE menggunakan from_config metode untuk pelatihan dari awal, atau metode untuk fine-tuning. from_pretrained Untuk mempelajari lebih lanjut tentang SMP MoEConfig kelas, lihattorch.sagemaker.moe.moe_config.MoEConfig.

# Import the torch.sagemaker.transform API and initialize. import torch.sagemaker as tsm tsm.init() # Import transformers AutoModelForCausalLM class. from transformers import AutoModelForCausalLM # Import the SMP-implementation of MoE configuration class. from torch.sagemaker.moe.moe_config import MoEConfig # Define a transformer model with an MoE model configuration model = AutoModelForCausalLM.from_config(MoEModelConfig) # Wrap it by torch.sagemaker.transform with the SMP MoE configuration. model = tsm.transform( model, config=MoEConfig( smp_moe=True, random_seed=12345, moe_load_balancing="sinkhorn", global_token_shuffle=False, moe_all_to_all_dispatcher=True, moe_aux_loss_coeff=0.001, moe_z_loss_coeff=0.001 ) )

SMPkonfigurasi

Sebagai bagian dari Langkah 2, tambahkan parameter berikut ke kamus SMP konfigurasi untuk SageMaker PyTorch estimator.

{ ..., # other SMP config parameters "expert_parallel_degree": 8 }