Amazon SageMaker HyperPod
O SageMaker HyperPod ajuda você a provisionar clusters resilientes para executar workload de machine learning (ML) e desenvolver modelos de última geração, como modelos de linguagem grande (LLMs), modelos de difusão e modelos básicos (FMs). Ele acelera o desenvolvimento de FMs ao eliminar o trabalho pesado indiferenciado envolvido na criação e manutenção de clusters de computação em grande escala alimentados por milhares de aceleradores, como AWS Trainium e unidades de processamento gráfico (GPUs) NVIDIA A100 e H100. Quando os aceleradores falham, os atributos de resiliência do SageMaker HyperPod monitoram as instâncias do cluster, detectam e substituem automaticamente o hardware defeituoso em tempo real, para que você possa se concentrar na execução de workloads de ML.
Para começar, verifique Pré-requisitos para usar o SageMaker HyperPod, configure AWS Identity and Access Management para SageMaker HyperPod e escolha uma das seguintes opções de orquestrador compatíveis com o SageMaker HyperPod:
Compatibilidade com o Slurm no SageMaker HyperPod
O SageMaker HyperPod fornece apoio para executar workload de machine learning em clusters resilientes por meio da integração com o Slurm, um gerenciador de workload de código aberto. O compatibilidade com o Slurm no SageMaker HyperPod permite a orquestração perfeita de clusters por meio da configuração de clusters do Slurm, permitindo que você configure nós principais, de login e de nó de processamento nos clusters do SageMaker HyperPod. Essa integração também facilita o agendamento de tarefas com base no Slurm para a execução de workloads de ML no cluster, bem como o acesso direto aos nós do cluster para a execução de tarefas de ML. Com o compatibilidade com a configuração do ciclo de vida do HyperPod, você pode personalizar o ambiente de processamento dos clusters para atender às suas necessidades específicas. Além disso, ao aproveitar as bibliotecas de treinamento distribuídas do Amazon SageMaker, você pode otimizar o desempenho dos clusters AWS em recursos de computação e rede. Para saber mais, consulte Como orquestrar os clusters do SageMaker HyperPod com o Slurm.
Compatibilidade com o Amazon EKS no SageMaker HyperPod
O SageMaker HyperPod também se integra ao Amazon EKS para permitir o treinamento em grande escala de modelos básicos em clusters computacionais resilientes e de longa duração. Isso permite que os usuários administradores do cluster provisionem clusters HyperPod e os conectem a um ambiente de gerenciamento EKS, permitindo o gerenciamento dinâmico da capacidade, acesso direto às instâncias do cluster e recursos de resiliência. Para cientistas de dados, a compatibilidade do Amazon EKS no HyperPod permite executar workloads em contêineres para treinar modelos básicos, inferir no cluster EKS e aproveitar o recurso de retomada automática de trabalhos para treinamento em Kubeflow PyTorch. A arquitetura envolve um mapeamento 1 para 1 entre um cluster EKS (ambiente de gerenciamento) e um cluster HyperPod (nó de processamento) em uma VPC, fornecendo uma solução totalmente integrada para executar workloads de ML em grande escala. Para saber mais, consulte Orquestrando clusters do SageMaker HyperPod com o Amazon EKS.
Regiões da AWS compatíveis com o SageMaker HyperPod
O SageMaker HyperPod está disponível nas Regiões da AWS a seguir.
-
us-east-1
-
us-east-2
-
us-west-2
-
eu-central-1
-
eu-west-1
-
eu-north-1
-
ap-southeast-1
-
ap-southeast-2
-
ap-northeast-1
Tópicos
- Pré-requisitos para usar o SageMaker HyperPod
- AWS Identity and Access Management para SageMaker HyperPod
- Como orquestrar os clusters do SageMaker HyperPod com o Slurm
- Orquestrando clusters do SageMaker HyperPod com o Amazon EKS
- Referências do SageMaker HyperPod
- Notas da versão do Amazon SageMaker HyperPod