Orquestrando SageMaker HyperPod clusters com o Slurm

O suporte do Slurm SageMaker HyperPod ajuda você a provisionar clusters resilientes para executar cargas de trabalho de aprendizado de máquina (ML) e desenvolver state-of-the-art modelos como modelos de linguagem grande (LLMs), modelos de difusão e modelos básicos (). FMs Ele acelera o desenvolvimento de FMs removendo o trabalho pesado indiferenciado envolvido na criação e manutenção de clusters de computação em grande escala, alimentados por milhares de aceleradores, como AWS Unidades de processamento gráfico Trainium e NVIDIA A100 e H100 (). GPUs Quando os aceleradores falham, os recursos de resiliência dos SageMaker HyperPod monitores das instâncias do cluster detectam e substituem automaticamente o hardware defeituoso em tempo real, para que você possa se concentrar na execução de cargas de trabalho de ML. Além disso, com o suporte à configuração do ciclo de vida ativado SageMaker HyperPod, você pode personalizar seu ambiente de computação para melhor atender às suas necessidades e configurá-lo com as bibliotecas de treinamento SageMaker distribuídas da Amazon para obter um desempenho ideal em AWS.

Clusters operacionais

Você pode criar, configurar e manter SageMaker HyperPod clusters graficamente por meio da interface de usuário (UI) do console e programaticamente por meio do AWS interface de linha de comando (CLI) ou AWS SDK for Python (Boto3). Com a AmazonVPC, você pode proteger a rede de clusters e também aproveitar as vantagens de configurar seu cluster com recursos disponíveisVPC, como o Amazon FSx for Lustre, que oferece a taxa de transferência mais rápida. Você também pode atribuir IAM funções diferentes aos grupos de instâncias de cluster e limitar as ações que seus recursos e usuários do cluster podem operar. Para saber mais, consulte SageMaker HyperPod operação.

Configurando seu ambiente de ML

SageMaker HyperPod é executadoSageMaker HyperPod DLAMI, o que configura um ambiente de ML nos HyperPod clusters. Você pode configurar personalizações adicionais no DLAMI fornecendo scripts de ciclo de vida para dar suporte ao seu caso de uso. Para saber mais sobre como configurar scripts de ciclo de vida, consulte e. Tutorial para começar a usar SageMaker HyperPod Personalize SageMaker HyperPod clusters usando scripts de ciclo de vida

Agendamento de trabalhos

Depois de criar um HyperPod cluster com sucesso, os usuários do cluster podem fazer login nos nós do cluster (como nó principal ou controlador, nó de login e nó de trabalho) e agendar trabalhos para executar cargas de trabalho de aprendizado de máquina. Para saber mais, consulte Trabalhos em SageMaker HyperPod clusters.

Resiliência contra falhas de hardware

SageMaker HyperPod executa verificações de integridade nos nós do cluster e fornece uma funcionalidade de retomada automática da carga de trabalho. Com os recursos de resiliência de cluster do HyperPod, você pode retomar sua carga de trabalho a partir do último ponto de verificação salvo, depois que os nós defeituosos forem substituídos por outros íntegros em clusters com mais de 16 nós. Para saber mais, consulte SageMaker HyperPod resiliência de clusters.

Registro e gerenciamento de clusters

Você pode encontrar métricas SageMaker HyperPod de utilização de recursos e registros do ciclo de vida na Amazon CloudWatch e gerenciar SageMaker HyperPod recursos marcando-os. Cada CreateCluster API execução cria um fluxo de log distinto, nomeado em <cluster-name>-<timestamp> formato. No fluxo de log, você pode verificar os nomes dos hosts, o nome dos scripts de ciclo de vida com falha e as saídas dos scripts com falha, como e. stdout stderr Para obter mais informações, consulte SageMaker HyperPod gerenciamento de clusters.

Compatível com SageMaker ferramentas

Usando SageMaker HyperPod, você pode configurar clusters com AWS bibliotecas de comunicações coletivas otimizadas oferecidas pela SageMaker, como a biblioteca SageMakerdistribuída de paralelismo de dados () SMDDP. A SMDDP biblioteca implementa a AllGather operação otimizada para o AWS infraestrutura de computação e rede para as instâncias de aprendizado de SageMaker máquina de melhor desempenho com tecnologia A100. NVIDIA GPUs Para saber mais, consulte Execute cargas de trabalho de treinamento distribuídas com o Slurm on HyperPod.

Tópicos

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

IAMpara HyperPod

Começando com SageMaker HyperPod