Principais atributos da Biblioteca de paralelismo de modelos do SageMaker - Amazon SageMaker

Principais atributos da Biblioteca de paralelismo de modelos do SageMaker

A biblioteca de paralelismo de modelos do Amazon SageMaker oferece estratégias de distribuição e técnicas de economia de memória, como paralelismo de dados fragmentados, paralelismo de tensores, particionamento de modelos por camadas para agendamento de pipeline e pontos de verificação. As estratégias e técnicas de paralelismo de modelos ajudam a distribuir modelos grandes em vários dispositivos, otimizando a velocidade de treinamento e o consumo de memória. A biblioteca também fornece funções auxiliares, gerenciadores de contexto e funções de wrapper do Python para adaptar seu script de treinamento para particionamento automático ou manual do seu modelo.

Ao implementar o paralelismo de modelos em seu trabalho de treinamento, você mantém o mesmo fluxo de trabalho em duas etapas mostrado na seção Executar um trabalho de treinamento distribuído do SageMaker com paralelismo de modelos. Para adaptar seu script de treinamento, você adicionará zero ou poucas linhas de código adicionais ao seu script de treinamento. Para iniciar um trabalho de treinamento do script de treinamento adaptado, você precisará definir os parâmetros de configuração da distribuição para ativar os atributos de economia de memória ou para passar valores para o grau de paralelismo.

Para começar com exemplos, consulte os seguintes cadernos Jupyter que demonstram como usar a biblioteca de paralelismo de modelos do SageMaker:

Para se aprofundar nos principais atributos da biblioteca, consulte os tópicos a seguir.

nota

As bibliotecas de treinamento distribuídas do SageMaker estão disponíveis por meio dos contêineres de aprendizado profundo AWS para PyTorch, Hugging Face e TensorFlow na plataforma Treinamento do SageMaker. Para utilizar os atributos das bibliotecas de treinamento distribuídas, recomendamos que você use o SageMaker Python SDK. Você também pode configurar manualmente a sintaxe de solicitação JSON se usar as APIs do SageMaker por meio do SDK for Python (Boto3) ou AWS Command Line Interface. Ao longo da documentação, as instruções e os exemplos se concentram em como usar as bibliotecas de treinamento distribuídas com o SageMaker Python SDK.

Importante

A biblioteca de paralelismo de modelos do SageMaker oferece apoio a todos os atributos principais do PyTorch e ao paralelismo de pipeline do TensorFlow.