Execute um trabalho de treinamento SageMaker distribuído com paralelismo de modelos - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Execute um trabalho de treinamento SageMaker distribuído com paralelismo de modelos

Saiba como executar um trabalho de treinamento paralelo de modelo com seu próprio script de treinamento usando o SDK do SageMaker Python com a biblioteca de paralelismo de modelos. SageMaker

Há três cenários de uso para executar um trabalho de SageMaker treinamento.

  1. Você pode usar um dos contêineres de aprendizado AWS profundo pré-construídos para TensorFlow e. PyTorch Essa opção é recomendada se for a primeira vez que você usa a biblioteca paralela de modelos. Para encontrar um tutorial sobre como executar um trabalho de treinamento paralelo de SageMaker modelos, consulte os exemplos de cadernos em PyTorch treinamento com a biblioteca de paralelismo SageMaker de modelos da Amazon.

  2. Você pode estender os contêineres pré-criados para lidar com quaisquer requisitos funcionais adicionais para seu algoritmo ou modelo que a imagem pré-criada do SageMaker Docker não suporte. Para encontrar um exemplo de como você pode estender um contêiner predefinido, consulte Estenda uma imagem de contêiner predefinida.

  3. Você pode adaptar seu próprio contêiner Docker para trabalhar SageMaker usando o kit de ferramentas SageMaker de treinamento. Por exemplo, consulte Adaptando seu próprio contêiner de treinamento.

Para ver as opções 2 e 3 na lista anterior, consulte Estenda um contêiner Docker pré-construído que contém a biblioteca paralela SageMaker de modelos distribuídos para saber como instalar a biblioteca paralela de modelos em um contêiner Docker estendido ou personalizado.

Em todos os casos, você inicia seu trabalho de treinamento configurando um PyTorch estimador SageMaker TensorFlow or para ativar a biblioteca. Para saber mais, consulte os tópicos a seguir.