Instalar paquetes en el EKS clúster de Amazon con Helm - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Instalar paquetes en el EKS clúster de Amazon con Helm

Antes de crear un SageMaker HyperPod clúster y adjuntarlo a un EKS clúster de Amazon, debes instalar los paquetes con Helm, un administrador de paquetes para Kubernetes. Helm es una herramienta de código abierto para configurar un proceso de instalación para los clústeres de Kubernetes. Permite la automatización y la optimización de las instalaciones de dependencias y simplifica varias configuraciones necesarias para preparar el EKS clúster de Amazon como el orquestador (plano de control) de un clúster. SageMaker HyperPod

El equipo SageMaker HyperPod de servicio proporciona un paquete de gráficos de Helm, que incluye dependencias clave, como dispositivos o EFA complementos, Kueue, Kubeflow Training Operator y las configuraciones de permisos asociadas.

importante

Este paso de instalación del timón es obligatorio. Si no configuras tu EKS clúster de Amazon con el diagrama de Helm proporcionado, es posible que el SageMaker HyperPod clúster no funcione correctamente o que el proceso de creación falle por completo. El aws-hyperpod nombre del espacio de nombres no se puede modificar.

  1. Instale Helm en su máquina local.

  2. Descargue los gráficos de Helm que SageMaker HyperPod se encuentran helm_chart/HyperPodHelmChart en el SageMaker HyperPod CLIrepositorio.

    git clone https://github.com/aws/sagemaker-hyperpod-cli.git cd sagemaker-hyperpod-cli/helm_chart
  3. Actualice las dependencias del gráfico de Helm, obtenga una vista previa de los cambios que se realizarán en su clúster de Kubernetes e instale el gráfico de Helm.

    helm dependencies update HyperPodHelmChart
    helm install hyperpod-dependencies HyperPodHelmChart --dry-run
    helm install hyperpod-dependencies HyperPodHelmChart

En resumen, la instalación de Helm configura varios componentes para tu EKS clúster de Amazon, como la programación y las colas de tareas (Kueue), la gestión del almacenamiento, la MLflow integración y Kubeflow. Además, los gráficos instalan los siguientes componentes para integrarlos con las funciones de resiliencia del SageMaker HyperPod clúster, que son componentes necesarios.

  • Agente de monitoreo de salud: instala el agente de monitoreo de salud proporcionado por. SageMaker HyperPod Esto es necesario si desea que su HyperPod clúster sea monitoreado. Los agentes de monitorización de la salud se proporcionan como imágenes de Docker de la siguiente manera. En los gráficos de Helm, la imagen está values.yaml preestablecida. El agente admite instancias e Trainium-accelerator-based instancias (trn1,trn1n,inf2) GPU basadas en el soporte. Se instala en el espacio de aws-hyperpod nombres.

    590183648699.dkr.ecr.us-west-2.amazonaws.com/hyperpod-health-monitoring-agent:1.0.230.0_1.0.19.0
  • Comprobación de estado profunda: configura aClusterRole, a ServiceAccount (deep-health-check-service-account) en el espacio de aws-hyperpod nombres y ClusterRoleBinding a para habilitar la función de verificación de estado SageMaker HyperPod profunda. Para obtener más información sobre el archivo de Kubernetes para una comprobación de estado exhaustiva, consulta el RBAC archivo de configuración del repositorio. deep-health-check-rbac.yaml SageMaker HyperPodCLI GitHub

  • job-auto-restart- Esto configura aClusterRole, a ServiceAccount (job-auto-restart) en el espacio de aws-hyperpod nombres y aClusterRoleBinding, para habilitar la función de reinicio automático para los trabajos de PyTorch formación en. SageMaker HyperPod Para obtener más información sobre el archivo de Kubernetesjob-auto-restart, consulta RBAC el archivo de configuración del repositorio. job-auto-restart-rbac.yaml SageMaker HyperPod CLI GitHub

  • Operador de Kubeflow: el MPI operador es un MPIoperador de Kubernetes que simplifica la ejecución de cargas de trabajo distribuidas de Machine Learning (ML) y computación de alto rendimiento () mediante la interfaz de paso de mensajes HPC () en los clústeres de Kubernetes. MPI Instala Operator v0.5. MPI Se instala en el espacio de nombres. mpi-operator

  • nvidia-device-plugin— Se trata de un complemento para dispositivos de Kubernetes que te permite exponerlos automáticamente NVIDIA GPUs para su consumo en los contenedores de tu clúster de Amazon. EKS Permite a Kubernetes asignar y proporcionar acceso a lo solicitado para ese contenedor. GPUs Se requiere cuando se usa un tipo de instancia con. GPU

  • neuron-device-plugin— Se trata de un complemento para dispositivos de Kubernetes que te permite exponer automáticamente los chips AWS Inferentia para que los consuman los contenedores de tu clúster de Amazon. EKS Permite a Kubernetes acceder a los chips Inferentia de los nodos del clúster y utilizarlos. AWS Se requiere cuando se utiliza un tipo de instancia Neuron.

  • aws-efa-k8s-device-plugin— Se trata de un complemento para dispositivos de Kubernetes que permite el uso de AWS Elastic Fabric Adapter () EFA en clústeres de Amazon. EKS EFAes un dispositivo de red que proporciona una comunicación de baja latencia y alto rendimiento entre las instancias de un clúster. Se requiere cuando se utiliza un tipo de instancia EFA compatible.

Para obtener más información sobre el procedimiento de instalación mediante los gráficos de Helm proporcionados, consulta el README archivo del SageMaker HyperPod CLI repositorio.