Começando a usar o EKS suporte da Amazon em SageMaker HyperPod - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Começando a usar o EKS suporte da Amazon em SageMaker HyperPod

Além do formulário geral Pré-requisitos para usar o SageMaker HyperPod SageMaker HyperPod, verifique os seguintes requisitos e considerações para orquestrar clusters SageMaker HyperPod usando a Amazon. EKS

Requisitos

nota

Antes de criar um HyperPod cluster, você precisa de um EKS cluster Amazon em execução configurado VPC e instalado usando o Helm.

  • Se estiver usando o SageMaker console, você pode criar um EKS cluster da Amazon na página do console do HyperPod cluster. Para obter mais informações, consulte Crie um SageMaker HyperPod cluster.

  • Se estiver usando AWS CLI, você deve criar um EKS cluster da Amazon antes de criar um HyperPod cluster ao qual se associar. Para obter mais informações, consulte Criar um EKS cluster da Amazon no Guia EKS do usuário da Amazon.

Ao provisionar seu EKS cluster da Amazon, considere o seguinte:

  1. Suporte à versão Kubernetes

    • SageMaker HyperPod é compatível com as versões 1.28, 1.29 e 1.30 do Kubernetes.

  2. Modo de autenticação EKS de cluster da Amazon

    • O modo de autenticação de um EKS cluster da Amazon suportado por SageMaker HyperPod are API API_AND_CONFIG_MAP e.

  3. Redes

    • SageMaker HyperPod requer o plug-in Amazon VPC Container Network Interface (CNI) versão 1.18.3 ou posterior.

      nota

      AWS VPCCNIO plugin para Kubernetes é o único CNI suportado pelo. SageMaker HyperPod

    • O tipo de sub-rede em sua VPC deve ser privado para HyperPod clusters.

  4. IAMfunções

  5. Complementos EKS de cluster da Amazon

    • Você pode continuar usando os vários complementos fornecidos pela Amazon, EKS como Kube-proxy, Core, DNS o CNIplug-in Amazon VPC Container Network Interface (), a identidade de EKS pod da Amazon, o agente GuardDuty, o driver Amazon FSx Container Storage Interface (CSI), o driver Mountpoint for Amazon S3, o CSI AWS Distro para e OpenTelemetry o agente de CloudWatch observabilidade.

Considerações sobre a configuração de SageMaker HyperPod clusters com a Amazon EKS

  • Você não pode montar EBS volumes adicionais diretamente nos pods executados nos nós HyperPod do cluster. Em vez disso, você precisa utilizá-lo InstanceStorageConfigspara provisionar e montar EBS volumes adicionais nos HyperPod nós. É importante observar que você só pode anexar EBS volumes adicionais a novos grupos de instâncias ao criar ou atualizar um HyperPod cluster. Depois de configurar grupos de instâncias com esses EBS volumes adicionais, em seu arquivo de configuração do Amazon EKS Pod, você precisará definir o caminho local /opt/sagemaker para montar adequadamente os volumes em seus Amazon EKS Pods.

  • Você pode implantar o controlador Amazon EBS CSI (Container Storage Interface) nos HyperPod nós. No entanto, o EBS CSI nó da Amazon DaemonSet, que facilita a montagem e desmontagem de EBS volumes, só pode ser executado em instâncias que não sejam. HyperPod Se você usar rótulos de tipo de instância para definir restrições de agendamento, certifique-se de usar os tipos de instância de ML prefixados com. SageMaker ml. Por exemplo, para instâncias P5, use ml.p5.48xlarge em vez dep5.48xlarge.

Considerações para configurar a rede para SageMaker HyperPod clusters com a Amazon EKS

  • Cada instância de HyperPod cluster oferece suporte a uma interface de rede elástica (ENI). Para saber o número máximo de pods por tipo de instância, consulte a tabela a seguir.

    Tipo de instância Número máximo de cápsulas
    ml.p4d.24xlarge 49
    ml.p4de.24xlarge 49
    ml.p 5.48xlarge 49
    ml.trn1.32xlarge 49
    ml.trn1n.32xlarge 49
    ml.g5.xlarge 14
    ml.g5.2xlarge 14
    ml.g5.4xlarge 29
    ml.g5.8xlarge 29
    ml.g5.12xlarge 49
    ml.g5.16xlarge 29
    ml.g5.24xlarge 49
    ml.g5.48xlarge 49
    ml.c5.large 9
    ml.c5.xlarge 14
    ml.c5.2xlarge 14
    ml.c5.4xlarge 29
    ml.c5.9xlarge 29
    ml.c5.12xlarge 29
    ml.c5.18xlarge 49
    ml.c5.24xlarge 49
    ml.c5n.large 9
    ml.c5n.2xlarge 14
    ml.c5n.4xlarge 29
    ml.c5n.9xlarge 29
    ml.c5n.18xlarge 49
    ml.m5.large 9
    ml.m5.xlarge 14
    ml.m5.2xlarge 14
    ml.m5.4xlarge 29
    ml.m5.8xlarge 29
    ml.m5.12xlarge 29
    ml.m5.16xlarge 49
    ml.m5.24xlarge 49
    ml.t3.medium 5
    ml.t3.large 11
    ml.t3.xlarge 14
    ml.t3.2xlarge 14
  • Somente os pods com hostNetwork = true têm acesso ao Amazon EC2 Instance Metadata Service (IMDS) por padrão. Use a identidade do Amazon EKS Pod ou as IAMfunções das contas de serviço (IRSA) para gerenciar o acesso ao AWS credenciais para Pods.

  • SageMaker HyperPod No momento, os clusters oferecem suporte somente ao endereçamento IPv4 IP. IPv6O endereçamento IP não é suportado no momento.

Considerações sobre o uso dos recursos de resiliência HyperPod do cluster

  • A substituição automática de nós não é compatível com CPU instâncias.

  • O agente HyperPod de monitoramento de integridade precisa ser instalado para que a recuperação automática do nó funcione. O agente pode ser instalado usando o Helm. Para obter mais informações, consulte Instale pacotes no EKS cluster da Amazon usando o Helm.

  • O agente de verificação HyperPod profunda de integridade e monitoramento de integridade oferece suporte a instâncias GPU e trn.

  • SageMaker aplica a seguinte contaminação aos nós quando eles estão passando por verificações de integridade profundas:

    effect: NoSchedule key: sagemaker.amazonaws.com/node-health-status value: Unschedulable
    nota

    Você não pode adicionar manchas personalizadas aos nós em grupos de instâncias com a opção DeepHealthChecks ativada.

Depois que seu EKS cluster Amazon estiver em execução, configure seu cluster usando o gerenciador de pacotes Helm conforme as instruções Instale pacotes no EKS cluster da Amazon usando o Helm antes de criar seu HyperPod cluster.