Execute treinamento distribuído com a biblioteca de paralelismo de dados distribuídos de SageMaker IA - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Execute treinamento distribuído com a biblioteca de paralelismo de dados distribuídos de SageMaker IA

A biblioteca de paralelismo de dados distribuídos de SageMaker IA (SMDDP) amplia os recursos de SageMaker treinamento em modelos de aprendizado profundo com eficiência de escalabilidade quase linear, fornecendo implementações de operações de comunicação coletiva otimizadas para infraestrutura. AWS

Ao treinar grandes modelos de machine learning (ML), como grandes modelos de linguagem (LLMs) e modelos de difusão, em um grande conjunto de dados de treinamento, os profissionais de ML usam clusters de aceleradores e técnicas de treinamento distribuídas para reduzir o tempo de treinamento ou resolver restrições de memória para modelos que não cabem em nenhuma memória da GPU. Os profissionais de ML geralmente começam com vários aceleradores em uma única instância e depois escalam para clusters de instâncias à medida que aumentam seus requisitos de workload. Quanto maior o tamanho do cluster, maior é a sobrecarga de comunicação entre os vários nós, o que causa uma queda no desempenho computacional geral.

Para resolver esses problemas de sobrecarga e memória, a biblioteca SMDDP oferece o seguinte:

  • A biblioteca SMDDP otimiza trabalhos de treinamento para infraestrutura de AWS rede e topologia de instância do Amazon SageMaker AI ML.

  • A biblioteca SMDDP melhora a comunicação entre os nós com implementações AllReduce e operações de comunicação AllGather coletiva otimizadas para infraestrutura. AWS

Para saber mais sobre os detalhes das ofertas da biblioteca SMDDP, acesse Introdução à biblioteca de paralelismo de dados distribuídos de SageMaker IA.

Para obter mais informações sobre treinamento com a estratégia paralela de modelos oferecida pela SageMaker IA, consulte também. Biblioteca de paralelismo de SageMaker modelos (arquivada) v1.x