Lançamento de trabalhos de treinamento distribuídos com SMDDP usando o Python SDK SageMaker - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Lançamento de trabalhos de treinamento distribuídos com SMDDP usando o Python SDK SageMaker

Para executar um trabalho de treinamento distribuído com seu script adaptado doAdaptação de seu script de treinamento para usar as operações coletivas do SMDDP, use a estrutura do SageMaker Python SDK ou estimadores genéricos especificando o script de treinamento preparado como um script de ponto de entrada e a configuração de treinamento distribuído.

Nesta página, você aprenderá a usar o SDK SageMaker AI Python de duas maneiras.

  • Se você quiser obter uma adoção rápida de seu trabalho de treinamento distribuído em SageMaker IA, configure uma classe de estimador de SageMaker IA PyTorchou TensorFlowestrutura. O estimador da estrutura pega seu script de treinamento e combina automaticamente o URI correto da imagem dos Deep Learning PyTorch Containers (DLC) pré-construídos ou do TensorFlow Deep Learning Containers (DLC), considerando o valor especificado para o parâmetro. framework_version

  • Se você quiser estender um dos contêineres pré-criados ou criar um contêiner personalizado para criar seu próprio ambiente de ML com SageMaker IA, use a Estimator classe genérica SageMaker AI e especifique o URI da imagem do contêiner Docker personalizado hospedado em seu Amazon Elastic Container Registry (Amazon ECR).

Seus conjuntos de dados de treinamento devem ser armazenados no Amazon S3 ou no FSx Amazon for Lustre Região da AWS no qual você está lançando seu trabalho de treinamento. Se você usa notebooks Jupyter, você deve ter uma instância de SageMaker notebook ou um aplicativo SageMaker Studio Classic em execução no mesmo. Região da AWS Para obter mais informações sobre como armazenar seus dados de treinamento, consulte a documentação de entradas de dados do SageMaker Python SDK.

dica

Recomendamos que você use o Amazon FSx for Lustre em vez do Amazon S3 para melhorar o desempenho do treinamento. FSx A Amazon tem maior taxa de transferência e menor latência do que o Amazon S3.

dica

Para executar adequadamente o treinamento distribuído nos tipos de instância habilitados para o EFA, você deve habilitar o tráfego entre as instâncias configurando o grupo de segurança da VPC para permitir todo o tráfego de entrada e saída de e para o próprio grupo de segurança. Para saber como configurar as regras do grupo de segurança, consulte Etapa 1: Preparar um grupo de segurança habilitado para EFA no Guia EC2 do usuário da Amazon.

Escolha um dos tópicos a seguir para obter instruções sobre como executar um trabalho de treinamento distribuído do script de treinamento. Depois de iniciar um trabalho de treinamento, você pode monitorar a utilização do sistema e o desempenho do modelo usando SageMaker Depurador Amazon a Amazon CloudWatch.

Enquanto você segue as instruções nos tópicos a seguir para saber mais sobre detalhes técnicos, também recomendamos que você experimente o Exemplos da biblioteca de paralelismo de dados da Amazon SageMaker AI para começar.