Paralelisme ahli

Mode fokus

Paralelisme ahli - Amazon SageMaker AI

Model Hugging Face Transformer kompatibel dengan paralelisme ahli SMP Konfigurasikan paralelisme ahli

Model Mixture of Experts (MoE) adalah jenis model transformator yang menggunakan pendekatan jarang, membuatnya lebih ringan untuk pelatihan dibandingkan dengan melatih model padat tradisional. Dalam arsitektur jaringan saraf MoE ini, hanya sebagian dari komponen model yang disebut ahli yang digunakan untuk setiap input. Pendekatan ini menawarkan beberapa keuntungan, termasuk pelatihan yang lebih efisien dan inferensi yang lebih cepat, bahkan dengan ukuran model yang lebih besar. Dengan kata lain, dengan anggaran komputasi yang sama untuk melatih model padat penuh, Anda dapat memasukkan model atau kumpulan data yang lebih besar saat menggunakan MoE.

Model MoE terdiri dari beberapa ahli, masing-masing terdiri dari jaringan saraf, biasanya jaringan feed-forward (FFN). Jaringan gerbang yang disebut router menentukan token mana yang dikirim ke ahli mana. Para ahli ini mengkhususkan diri dalam memproses aspek-aspek spesifik dari data input, memungkinkan model untuk melatih lebih cepat, mengurangi biaya komputasi, sambil mencapai kualitas kinerja yang sama dengan model padat mitranya. Untuk mempelajari lebih lanjut tentang Campuran Ahli secara umum, lihat blog Menerapkan Campuran Ahli dalam Arsitektur LLM di situs web pengembang NVIDIA.

Paralelisme ahli adalah jenis paralelisme yang menangani para ahli pemisahan model MoE di seluruh perangkat GPU.

SMP v2 terintegrasi dengan NVIDIA Megatron untuk menerapkan paralelisme ahli untuk mendukung pelatihan model MoE, dan berjalan di atas FSDP. PyTorch APIs Anda tetap menggunakan kode pelatihan PyTorch FSDP apa adanya dan mengaktifkan paralelisme ahli SMP untuk melatih model MoE.

Model Hugging Face Transformer kompatibel dengan paralelisme ahli SMP

SMP v2 saat ini menawarkan dukungan paralelisme ahli untuk model transformator Hugging Face berikut.

Mixtral

Konfigurasikan paralelisme ahli

Untukexpert_parallel_degree, Anda memilih nilai untuk tingkat paralelisme ahli. Nilai harus merata membagi jumlah GPUs di cluster Anda. Misalnya, untuk membelah model Anda saat menggunakan instance dengan 8 GPUs, pilih 2, 4, atau 8. Kami menyarankan Anda memulai dengan jumlah kecil, dan secara bertahap meningkatkannya hingga model sesuai dengan memori GPU.

Cuplikan kode berikut menunjukkan cara menambahkan modul inisialisasi SMP torch.sagemaker.init() ke skrip pelatihan Anda dan mengatur kamus konfigurasi SMP dalam format JSON untuk peluncur pekerjaan pelatihan sambil mengikuti proses dua langkah yang diperkenalkan. Gunakan perpustakaan paralelisme SageMaker model v2 Anda tidak perlu membuat perubahan apa pun pada PyTorch model atau konfigurasi PyTorch FSDP Anda. Untuk informasi tentang parameter expert_parallel_degree, lihat Parameter konfigurasi fitur inti SMP v2.

catatan

Anda dapat menggunakan paralelisme ahli dengan. Paralelisme data sharded hibrida Perhatikan bahwa paralelisme ahli saat ini tidak kompatibel dengan paralelisme tensor.

catatan

Fitur pelatihan paralelisme ahli ini tersedia dalam kombinasi perpustakaan SageMaker dan perpustakaan berikut: PyTorch

SMP v2.3.0 dan yang lebih baru
SageMaker Python SDK v2.214.4 dan yang lebih baru
PyTorch v2.2.0 dan yang lebih baru

Dalam skrip pelatihan Anda

Sebagai bagian dari Langkah 1, inisialisasi skrip Anda torch.sagemaker.init() untuk mengaktifkan SMP v2 dan membungkus model Anda dengan torch.sagemaker.transform API, menambahkan config parameter ke API untuk mengaktifkan MoE. Cuplikan kode berikut menunjukkan cara mengaktifkan SMP MoE untuk kelas model generik yang AutoModelForCausalLM menarik konfigurasi model transformator MoE menggunakan from_config metode untuk pelatihan dari awal, atau metode untuk fine-tuning. from_pretrained Untuk mempelajari lebih lanjut tentang MoEConfig kelas SMP, lihattorch.sagemaker.moe.moe_config.MoEConfig.


# Import the torch.sagemaker.transform API and initialize.
import torch.sagemaker as tsm
tsm.init()

# Import transformers AutoModelForCausalLM class.
from transformers import AutoModelForCausalLM

# Import the SMP-implementation of MoE configuration class.
from torch.sagemaker.moe.moe_config import MoEConfig

# Define a transformer model with an MoE model configuration
model = AutoModelForCausalLM.from_config(MoEModelConfig)

# Wrap it by torch.sagemaker.transform with the SMP MoE configuration.
model = tsm.transform(
    model, 
    config=MoEConfig(
        smp_moe=True,
        random_seed=12345,
        moe_load_balancing="sinkhorn",
        global_token_shuffle=False,
        moe_all_to_all_dispatcher=True,
        moe_aux_loss_coeff=0.001,
        moe_z_loss_coeff=0.001
    )
)

Konfigurasi SMP

Sebagai bagian dari Langkah 2, tambahkan parameter berikut ke kamus konfigurasi SMP untuk SageMaker PyTorch estimator.


{   
    ..., # other SMP config parameters
    "expert_parallel_degree": 8
}

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Paralelisme data sharded hibrida

Paralelisme konteks

Di halaman ini

Pilih preferensi cookie Anda

Sesuaikan preferensi cookie

Penting

Kinerja

Fungsional

Iklan

Tidak dapat menyimpan preferensi cookie

Paralelisme ahli

Model Hugging Face Transformer kompatibel dengan paralelisme ahli SMP

Konfigurasikan paralelisme ahli

catatan

catatan

Dalam skrip pelatihan Anda

Konfigurasi SMP

Di halaman ini

Apakah halaman ini membantu Anda?

Topik berikutnya:

Topik sebelumnya:

Perlu bantuan?