As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Execute treinamento distribuído com a biblioteca de paralelismo de dados distribuídos de SageMaker IA
A biblioteca de paralelismo de dados distribuídos de SageMaker IA (SMDDP) amplia os recursos de SageMaker treinamento em modelos de aprendizado profundo com eficiência de escalabilidade quase linear, fornecendo implementações de operações de comunicação coletiva otimizadas para infraestrutura. AWS
Ao treinar grandes modelos de machine learning (ML), como grandes modelos de linguagem (LLMs) e modelos de difusão, em um grande conjunto de dados de treinamento, os profissionais de ML usam clusters de aceleradores e técnicas de treinamento distribuídas para reduzir o tempo de treinamento ou resolver restrições de memória para modelos que não cabem em nenhuma memória da GPU. Os profissionais de ML geralmente começam com vários aceleradores em uma única instância e depois escalam para clusters de instâncias à medida que aumentam seus requisitos de workload. Quanto maior o tamanho do cluster, maior é a sobrecarga de comunicação entre os vários nós, o que causa uma queda no desempenho computacional geral.
Para resolver esses problemas de sobrecarga e memória, a biblioteca SMDDP oferece o seguinte:
-
A biblioteca SMDDP otimiza trabalhos de treinamento para infraestrutura de AWS rede e topologia de instância do Amazon SageMaker AI ML.
-
A biblioteca SMDDP melhora a comunicação entre os nós com implementações
AllReduce
e operações de comunicaçãoAllGather
coletiva otimizadas para infraestrutura. AWS
Para saber mais sobre os detalhes das ofertas da biblioteca SMDDP, acesse Introdução à biblioteca de paralelismo de dados distribuídos de SageMaker IA.
Para obter mais informações sobre treinamento com a estratégia paralela de modelos oferecida pela SageMaker IA, consulte também. Biblioteca de paralelismo de SageMaker modelos (arquivada) v1.x
Tópicos
Introdução à biblioteca de paralelismo de dados distribuídos de SageMaker IA
Treinamento distribuído com a biblioteca de SageMaker paralelismo de dados distribuídos de IA
Exemplos da biblioteca de paralelismo de dados da Amazon SageMaker AI
Dicas de configuração para a biblioteca de paralelismo de dados distribuídos de SageMaker IA
Perguntas frequentes sobre a biblioteca de paralelismo de dados distribuídos Amazon SageMaker AI
Solução de problemas para treinamento distribuído na Amazon SageMaker AI
SageMaker Notas de lançamento da biblioteca de paralelismo de dados de IA