Execute um trabalho de treinamento SageMaker distribuído com paralelismo de modelos

Saiba como executar um trabalho de treinamento paralelo de modelo com seu próprio script de treinamento usando o SDK do SageMaker Python com a biblioteca de paralelismo de modelos. SageMaker

Há três cenários de uso para executar um trabalho de SageMaker treinamento.

Você pode usar um dos contêineres de aprendizado AWS profundo pré-construídos para TensorFlow e. PyTorch Essa opção é recomendada se for a primeira vez que você usa a biblioteca paralela de modelos. Para encontrar um tutorial sobre como executar um trabalho de treinamento paralelo de SageMaker modelos, consulte os exemplos de cadernos em PyTorch treinamento com a biblioteca de paralelismo SageMaker de modelos da Amazon.
Você pode estender os contêineres pré-criados para lidar com quaisquer requisitos funcionais adicionais para seu algoritmo ou modelo que a imagem pré-criada do SageMaker Docker não suporte. Para encontrar um exemplo de como você pode estender um contêiner predefinido, consulte Estenda uma imagem de contêiner predefinida.
Você pode adaptar seu próprio contêiner Docker para trabalhar SageMaker usando o kit de ferramentas SageMaker de treinamento. Por exemplo, consulte Adaptando seu próprio contêiner de treinamento.

Para ver as opções 2 e 3 na lista anterior, consulte Estenda um contêiner Docker pré-construído que contém a biblioteca paralela SageMaker de modelos distribuídos para saber como instalar a biblioteca paralela de modelos em um contêiner Docker estendido ou personalizado.

Em todos os casos, você inicia seu trabalho de treinamento configurando um PyTorch estimador SageMaker TensorFlow or para ativar a biblioteca. Para saber mais, consulte os tópicos a seguir.

Tópicos

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Support for FlashAttention

Etapa 1: modifique seu próprio script de treinamento