Lançamento de trabalhos de treinamento distribuídos com o SMDDP uso do SageMaker Python SDK - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Lançamento de trabalhos de treinamento distribuídos com o SMDDP uso do SageMaker Python SDK

Para executar um trabalho de treinamento distribuído com seu script adaptado doAdaptando seu roteiro de treinamento para usar as operações SMDDP coletivas, use a estrutura SDK do SageMaker Python ou estimadores genéricos especificando o script de treinamento preparado como um script de ponto de entrada e a configuração de treinamento distribuído.

Esta página explica como usar o SageMaker Python de duas SDK maneiras.

  • Se você quiser obter uma adoção rápida de seu trabalho de treinamento distribuído em SageMaker, configure uma classe de estimador de TensorFlowestrutura SageMaker PyTorchou. O estimador da estrutura pega seu script de treinamento e combina automaticamente a imagem correta dos Deep Learning PyTorch Containers () pré-criados ou URI do TensorFlow Deep Learning Containers (DLC), considerando o valor especificado para o parâmetro. framework_version

  • Se você quiser estender um dos contêineres pré-criados ou criar um contêiner personalizado para criar seu próprio ambiente de ML SageMaker, use a Estimator classe SageMaker genérica e especifique a imagem URI do contêiner Docker personalizado hospedado em seu Amazon Elastic Container Registry (AmazonECR).

Seus conjuntos de dados de treinamento devem ser armazenados no Amazon S3 ou no FSxAmazon for Lustre Região da AWS no qual você está lançando seu trabalho de treinamento. Se você usa notebooks Jupyter, você deve ter uma instância de SageMaker notebook ou um aplicativo SageMaker Studio Classic em execução no mesmo. Região da AWS Para obter mais informações sobre como armazenar seus dados de treinamento, consulte a documentação de entradas de SDK dados do SageMaker Python.

dica

Recomendamos que você use o Amazon FSx for Lustre em vez do Amazon S3 para melhorar o desempenho do treinamento. FSxA Amazon tem maior taxa de transferência e menor latência do que o Amazon S3.

dica

Para executar adequadamente o treinamento distribuído nos tipos de instância EFA habilitados, você deve habilitar o tráfego entre as instâncias configurando seu grupo de segurança VPC para permitir todo o tráfego de entrada e saída de e para o próprio grupo de segurança. Para saber como configurar as regras do grupo de segurança, consulte Etapa 1: Preparar um grupo de segurança EFA habilitado no Guia do EC2 usuário da Amazon.

Escolha um dos tópicos a seguir para obter instruções sobre como executar um trabalho de treinamento distribuído do seu script de treinamento. Depois de iniciar um trabalho de treinamento, você pode monitorar a utilização do sistema e o desempenho do modelo usando SageMaker Depurador Amazon a Amazon CloudWatch.

Enquanto você segue as instruções nos tópicos a seguir para saber mais sobre detalhes técnicos, também recomendamos que você experimente o Exemplos da biblioteca SageMaker de paralelismo de dados da Amazon para começar.