Amazon SageMaker HyperPod - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Amazon SageMaker HyperPod

SageMaker HyperPod ajuda você a provisionar clusters resilientes para executar cargas de trabalho de aprendizado de máquina (ML) e desenvolver state-of-the-art modelos como modelos de linguagem grande (LLMs), modelos de difusão e modelos básicos (). FMs Ele acelera o desenvolvimento de FMs removendo o trabalho pesado indiferenciado envolvido na criação e manutenção de clusters de computação em grande escala alimentados por milhares de aceleradores, como AWS Trainium e unidades de processamento gráfico A100 e NVIDIA H100 (). GPUs Quando os aceleradores falham, os recursos de resiliência do SageMaker HyperPod monitor das instâncias do cluster detectam e substituem automaticamente o hardware defeituoso em tempo real, para que você possa se concentrar na execução de cargas de trabalho de ML.

Para começar, verifique Pré-requisitos para usar o SageMaker HyperPodAWS Identity and Access Management para SageMaker HyperPod, configure e escolha uma das seguintes opções de orquestrador suportadas pelo. SageMaker HyperPod

Suporte para Slurm em SageMaker HyperPod

SageMaker HyperPod fornece suporte para executar cargas de trabalho de aprendizado de máquina em clusters resilientes por meio da integração com o Slurm, um gerenciador de carga de trabalho de código aberto. O suporte ao Slurm SageMaker HyperPod permite a orquestração perfeita do cluster por meio da configuração do cluster do Slurm, permitindo que você configure nós principais, de login e de trabalho nos SageMaker HyperPod clusters. Essa integração também facilita o agendamento de tarefas baseado no Slurm para executar cargas de trabalho de ML no cluster, bem como o acesso direto aos nós do cluster para agendamento de trabalhos. Com HyperPod o suporte à configuração do ciclo de vida, você pode personalizar o ambiente de computação dos clusters para atender às suas necessidades específicas. Além disso, ao aproveitar as bibliotecas de treinamento SageMaker distribuídas da Amazon, você pode otimizar o desempenho dos clusters em AWS recursos de computação e rede. Para saber mais, consulte Orquestrando SageMaker HyperPod clusters com o Slurm.

EKSSuporte da Amazon em SageMaker HyperPod

SageMaker HyperPod também se integra à Amazon EKS para permitir o treinamento em grande escala de modelos básicos em clusters de computação resilientes e de longa duração. Isso permite que os usuários administradores do cluster provisionem HyperPod clusters e os conectem a um plano de EKS controle, permitindo o gerenciamento dinâmico da capacidade, acesso direto às instâncias do cluster e recursos de resiliência. Para cientistas de dados, o EKS suporte da Amazon HyperPod permite executar cargas de trabalho em contêineres para treinar modelos básicos, inferir no EKS cluster e aproveitar o recurso de retomada automática de trabalhos para treinamento em Kubeflow. PyTorch A arquitetura envolve um mapeamento de 1 para 1 entre um EKS cluster (plano de controle) e um HyperPod cluster (nós de trabalho) dentro de umVPC, fornecendo uma solução totalmente integrada para executar cargas de trabalho de ML em grande escala. Para saber mais, consulte Orquestrando SageMaker HyperPod clusters com a Amazon EKS.

Regiões da AWS apoiado por SageMaker HyperPod

SageMaker HyperPod está disponível a seguir Regiões da AWS.

  • us-east-1

  • us-east-2

  • us-west-2

  • eu-central-1

  • eu-west-1

  • eu-north-1

  • ap-southeast-1

  • ap-southeast-2

  • ap-northeast-1