Lançamento de trabalhos de treinamento distribuídos com SMDDP usando o Python SDK SageMaker

Para executar um trabalho de treinamento distribuído com seu script adaptado doAdaptação de seu script de treinamento para usar as operações coletivas do SMDDP, use a estrutura do SageMaker Python SDK ou estimadores genéricos especificando o script de treinamento preparado como um script de ponto de entrada e a configuração de treinamento distribuído.

Nesta página, você aprenderá a usar o SDK SageMaker AI Python de duas maneiras.

Se você quiser obter uma adoção rápida de seu trabalho de treinamento distribuído em SageMaker IA, configure uma classe de estimador de SageMaker IA PyTorchou TensorFlowestrutura. O estimador da estrutura pega seu script de treinamento e combina automaticamente o URI correto da imagem dos Deep Learning PyTorch Containers (DLC) pré-construídos ou do TensorFlow Deep Learning Containers (DLC), considerando o valor especificado para o parâmetro. framework_version
Se você quiser estender um dos contêineres pré-criados ou criar um contêiner personalizado para criar seu próprio ambiente de ML com SageMaker IA, use a Estimator classe genérica SageMaker AI e especifique o URI da imagem do contêiner Docker personalizado hospedado em seu Amazon Elastic Container Registry (Amazon ECR).

Seus conjuntos de dados de treinamento devem ser armazenados no Amazon S3 ou no Amazon FSx for Região da AWS Lustre, onde você está lançando seu trabalho de treinamento. Se você usa notebooks Jupyter, você deve ter uma instância de SageMaker notebook ou um aplicativo SageMaker Studio Classic em execução no mesmo. Região da AWS Para obter mais informações sobre como armazenar seus dados de treinamento, consulte a documentação de entradas de dados do SageMaker Python SDK.

dica

É recomendável que você use o Amazon FSx para Lustre em vez de Amazon S3 para aumentar o desempenho do treinamento. O Amazon FSx tem maior throughput e menor latência do que o Amazon S3.

dica

Para executar adequadamente o treinamento distribuído nos tipos de EFA-enabled instância, você deve habilitar o tráfego entre as instâncias configurando o grupo de segurança da sua VPC para permitir todo o tráfego de entrada e saída de e para o próprio grupo de segurança. Para saber como configurar as regras do grupo de segurança, consulte Etapa 1: Preparar um grupo de EFA-enabled segurança no Guia do usuário do Amazon EC2.

Escolha um dos tópicos a seguir para obter instruções sobre como executar um trabalho de treinamento distribuído do script de treinamento. Depois de iniciar um trabalho de treinamento, você pode monitorar a utilização do sistema e o desempenho do modelo usando SageMaker Depurador Amazon a Amazon CloudWatch.

Enquanto você segue as instruções nos tópicos a seguir para saber mais sobre detalhes técnicos, também recomendamos que você experimente o Exemplos da biblioteca de paralelismo de dados da Amazon SageMaker AI para começar.

Tópicos

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

TensorFlow (obsoleto)

Use os estimadores da PyTorch estrutura no SDK do Python SageMaker