Instale pacotes no EKS cluster da Amazon usando o Helm - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Instale pacotes no EKS cluster da Amazon usando o Helm

Antes de criar um SageMaker HyperPod cluster e anexá-lo a um EKS cluster da Amazon, você deve instalar pacotes usando o Helm, um gerenciador de pacotes para Kubernetes. O Helm é uma ferramenta de código aberto para configurar um processo de instalação para clusters Kubernetes. Ele permite a automação e a simplificação das instalações de dependências e simplifica várias configurações necessárias para preparar o EKS cluster da Amazon como orquestrador (plano de controle) de um cluster. SageMaker HyperPod

A equipe SageMaker HyperPod de serviço fornece um pacote de gráficos do Helm, que agrupa as principais dependências, como EFA dispositivos/plug-ins, Kueue, Kubeflow Training Operator e configurações de permissão associadas.

Importante

Esta etapa de instalação do leme é uma etapa obrigatória. A falha na configuração do seu EKS cluster da Amazon usando o gráfico Helm fornecido pode fazer com que o SageMaker HyperPod cluster não funcione corretamente ou que o processo de criação falhe totalmente. O aws-hyperpod nome do namespace não pode ser modificado.

  1. Instale o Helm em sua máquina local.

  2. Baixe os gráficos do Helm fornecidos por SageMaker HyperPod localizados helm_chart/HyperPodHelmChart no SageMaker HyperPod CLIrepositório.

    git clone https://github.com/aws/sagemaker-hyperpod-cli.git cd sagemaker-hyperpod-cli/helm_chart
  3. Atualize as dependências do gráfico do Helm, visualize as alterações que serão feitas no seu cluster Kubernetes e instale o gráfico do Helm.

    helm dependencies update HyperPodHelmChart
    helm install hyperpod-dependencies HyperPodHelmChart --dry-run
    helm install hyperpod-dependencies HyperPodHelmChart

Em resumo, a instalação do Helm configura vários componentes para seu EKS cluster Amazon, incluindo agendamento e enfileiramento de trabalhos (Kueue), gerenciamento de armazenamento, integração e Kubeflow. MLflow Além disso, os gráficos instalam os seguintes componentes para integração com os recursos de resiliência do SageMaker HyperPod cluster, que são componentes necessários.

  • Agente de monitoramento de saúde — Isso instala o agente de monitoramento de saúde fornecido por. SageMaker HyperPod Isso é necessário se você quiser que seu HyperPod cluster seja monitorado. Os agentes de monitoramento de saúde são fornecidos como imagens do Docker da seguinte forma. Nos values.yaml fornecidos nos gráficos do Helm, a imagem é predefinida. O agente suporta instâncias GPU baseadas e rainium-accelerator-based instâncias T (trn1,trn1n,inf2). Ele é instalado no aws-hyperpod namespace.

    590183648699.dkr.ecr.us-west-2.amazonaws.com/hyperpod-health-monitoring-agent:1.0.230.0_1.0.19.0
  • Verificação profunda de integridade — Isso configura a conta do serviço de verificação SageMaker HyperPod profunda de ClusterRole integridade e ClusterRoleBinding o aws-hyperpod namespace.

  • Operador Kubeflow — O MPI operador é um MPIoperador do Kubernetes que simplifica a execução de cargas de trabalho distribuídas de Machine Learning (ML) e Computação de Alto Desempenho () usando a Interface de Passagem de Mensagens HPC () em clusters Kubernetes. MPI Ele instala o MPI Operator v0.5. Ele é instalado no mpi-operator namespace.

  • nvidia-device-plugin— Este é um plug-in de dispositivo Kubernetes que permite que você exponha automaticamente para consumo NVIDIA GPUs por contêineres em seu cluster Amazon. EKS Ele permite que o Kubernetes aloque e forneça acesso ao solicitado GPUs para esse contêiner. Obrigatório ao usar um tipo de instância comGPU.

  • neuron-device-plugin— Este é um plug-in de dispositivo Kubernetes que permite que você exponha automaticamente AWS Chips de inferência para consumo por contêineres em seu EKS cluster da Amazon. Ele permite que o Kubernetes acesse e utilize o AWS Chips de inferência nos nós do cluster. Obrigatório ao usar um tipo de instância Neuron.

  • aws-efa-k8s-device-plugin— Este é um plug-in de dispositivo Kubernetes que permite o uso de AWS Elastic Fabric Adapter (EFA) em EKS clusters da Amazon. EFAé um dispositivo de rede que fornece comunicação de baixa latência e alta taxa de transferência entre instâncias em um cluster. Obrigatório ao usar um tipo de instância EFA compatível.

Para obter mais informações sobre o procedimento de instalação usando os gráficos Helm fornecidos, consulte o READMEarquivo no SageMaker HyperPod CLI repositório.