Como executar um trabalho de treinamento distribuído com a biblioteca de SageMaker paralelismo de dados distribuídos - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Como executar um trabalho de treinamento distribuído com a biblioteca de SageMaker paralelismo de dados distribuídos

A biblioteca de paralelismo de dados SageMaker distribuídos (SMDDP) foi projetada para facilitar o uso e fornecer integração perfeita com o. PyTorch

Ao treinar um modelo de aprendizado profundo com a biblioteca SMDDP ativada SageMaker, você pode se concentrar em escrever seu script de treinamento e modelo de treinamento.

Para começar, importe a biblioteca SMDDP para usar suas operações coletivas otimizadas para. AWS Os tópicos a seguir fornecem instruções sobre o que adicionar ao seu script de treinamento, dependendo da operação coletiva que você deseja otimizar.