As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Paralelismo de contexto
O paralelismo de contexto é um tipo de paralelismo de modelo que divide as ativações do modelo ao longo da dimensão da sequência. Ao contrário de outras técnicas de paralelismo de sequênciaLayerNorm
eRMSNorm
, o paralelismo de contexto particiona as entradas da rede e todas as ativações intermediárias ao longo da dimensão da sequência.
SMPA v2 se integra ao Transformer Engine
Modelos Hugging Face Transformer compatíveis com paralelismo especializado SMP
SMPAtualmente, a v2 oferece suporte ao paralelismo de contexto para os seguintes modelos de transformadores Hugging Face.
-
GPT-NeoX
-
Llama 2 e Llama 3
Configure o paralelismo especializado
context_parallel_degree parameter
Defina o como um valor que divida uniformemente o número de GPUs em seu cluster. Por exemplo, se você tiver uma GPU instância 8, use 2, 4 ou 8 paracontext_parallel_degree
. Recomendamos começar com um context_parallel_degree
valor pequeno e aumentá-lo gradualmente até que o modelo caiba na GPU memória com o comprimento de sequência de entrada necessário.
Os trechos de código a seguir mostram como adicionar o módulo de SMP inicialização torch.sagemaker.init()
ao seu script de treinamento e configurar o dicionário de SMP configuração no JSON formato para o lançador de tarefas de treinamento, seguindo o processo de duas etapas apresentado em. Comece com a biblioteca de paralelismo de SageMaker modelos v2 Você não precisa fazer nenhuma alteração em seu PyTorch modelo ou PyTorch FSDPcontext_parallel_degree
, consulte SMPparâmetros de configuração do recurso principal v2.
Em seu roteiro de treinamento
Como parte da Etapa 1, inicialize seu script com torch.sagemaker.init()
para ativar a SMP v2 e encapsular seu modelo com o. torch.sagemaker.transform API
import torch.sagemaker as tsm tsm.init() from transformers import AutoModelForCausalLM model = AutoModelForCausalLM.from_config(..) model = tsm.transform(model)
SMPconfiguração
Como parte da Etapa 2, adicione o seguinte parâmetro ao dicionário SMP de configuração do SageMaker PyTorch estimador.
{ ..., # other SMP config parameters "context_parallel_degree": 2 }