As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Execute treinamento distribuído com a biblioteca de SageMaker paralelismo de dados distribuídos
A biblioteca de paralelismo de dados SageMaker distribuídos (SMDDP) amplia os recursos de SageMaker treinamento em modelos de aprendizado profundo com eficiência de escalabilidade quase linear, fornecendo implementações de operações de comunicação coletiva otimizadas para infraestrutura. AWS
Ao treinar grandes modelos de aprendizado de máquina (ML), como modelos de linguagem grande (LLM) e modelos de difusão, em um grande conjunto de dados de treinamento, os profissionais de ML usam clusters de aceleradores e técnicas de treinamento distribuídas para reduzir o tempo de treinamento ou resolver restrições de memória para modelos que não cabem em cada memória da GPU. Os profissionais de ML geralmente começam com vários aceleradores em uma única instância e depois escalam para clusters de instâncias à medida que seus requisitos de carga de trabalho aumentam. À medida que o tamanho do cluster aumenta, também aumenta a sobrecarga de comunicação entre vários nós, o que leva à queda no desempenho computacional geral.
Para resolver esses problemas de sobrecarga e memória, a biblioteca SMDDP oferece o seguinte.
-
A biblioteca SMDDP otimiza trabalhos de treinamento para infraestrutura de AWS rede e topologia de instâncias do Amazon SageMaker ML.
-
A biblioteca SMDDP melhora a comunicação entre os nós com implementações
AllReduce
e operações de comunicaçãoAllGather
coletiva otimizadas para infraestrutura. AWS
Para saber mais sobre os detalhes das ofertas da biblioteca SMDDP, vá para. Introdução à biblioteca de SageMaker paralelismo de dados distribuídos
Para obter mais informações sobre treinamento com a estratégia paralela de modelos oferecida pela SageMaker, consulte também. Biblioteca de paralelismo de SageMaker modelos (arquivada) v1.x
Tópicos
- Introdução à biblioteca de SageMaker paralelismo de dados distribuídos
- Estruturas e tipos Regiões da AWS de instâncias compatíveis
- Treinamento distribuído com a biblioteca de SageMaker paralelismo de dados distribuídos
- Exemplos da biblioteca SageMaker de paralelismo de dados da Amazon
- Dicas de configuração para a biblioteca de SageMaker paralelismo de dados distribuídos
- Perguntas frequentes sobre a SageMaker biblioteca de paralelismo de dados distribuídos da Amazon
- Solução de problemas para treinamento distribuído na Amazon SageMaker
- SageMaker notas de lançamento da biblioteca de paralelismo de dados