Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Instalar paquetes en el EKS clúster de Amazon con Helm
Antes de crear un SageMaker HyperPod clúster y adjuntarlo a un EKS clúster de Amazon, debes instalar los paquetes con Helm
importante
Este paso de instalación del timón es obligatorio. Si no configuras tu EKS clúster de Amazon con el diagrama de Helm proporcionado, es posible que el SageMaker HyperPod clúster no funcione correctamente o que el proceso de creación falle por completo. El aws-hyperpod
nombre del espacio de nombres no se puede modificar.
-
Instale Helm
en su máquina local. -
Descargue los gráficos de Helm que SageMaker HyperPod se encuentran
helm_chart/HyperPodHelmChart
en el SageMaker HyperPod CLIrepositorio. git clone https://github.com/aws/sagemaker-hyperpod-cli.git cd sagemaker-hyperpod-cli/helm_chart
-
Actualice las dependencias del gráfico de Helm, obtenga una vista previa de los cambios que se realizarán en su clúster de Kubernetes e instale el gráfico de Helm.
helm dependencies update HyperPodHelmChart
helm install hyperpod-dependencies HyperPodHelmChart --dry-run
helm install hyperpod-dependencies HyperPodHelmChart
En resumen, la instalación de Helm configura varios componentes para tu EKS clúster de Amazon, como la programación y las colas de tareas (Kueue), la gestión del almacenamiento, la MLflow integración y Kubeflow. Además, los gráficos instalan los siguientes componentes para integrarlos con las funciones de resiliencia del SageMaker HyperPod clúster, que son componentes necesarios.
-
Agente de monitoreo de salud: instala el agente de monitoreo de salud proporcionado por. SageMaker HyperPod Esto es necesario si desea que su HyperPod clúster sea monitoreado. Los agentes de monitorización de la salud se proporcionan como imágenes de Docker de la siguiente manera. En los gráficos de Helm, la imagen está
values.yaml
preestablecida. El agente admite instancias e Trainium-accelerator-based instancias (trn1
,trn1n
,inf2
) GPU basadas en el soporte. Se instala en el espacio deaws-hyperpod
nombres.590183648699.dkr.ecr.us-west-2.amazonaws.com/hyperpod-health-monitoring-agent:1.0.230.0_1.0.19.0
-
Comprobación de estado profunda: configura a
ClusterRole
, a ServiceAccount (deep-health-check-service-account
) en el espacio deaws-hyperpod
nombres yClusterRoleBinding
a para habilitar la función de verificación de estado SageMaker HyperPod profunda. Para obtener más información sobre el archivo de Kubernetes para una comprobación de estado exhaustiva, consulta el RBAC archivo de configuración del repositorio.deep-health-check-rbac.yaml
SageMaker HyperPodCLI GitHub -
job-auto-restart
- Esto configura aClusterRole
, a ServiceAccount (job-auto-restart
) en el espacio deaws-hyperpod
nombres y aClusterRoleBinding
, para habilitar la función de reinicio automático para los trabajos de PyTorch formación en. SageMaker HyperPod Para obtener más información sobre el archivo de Kubernetesjob-auto-restart
, consulta RBAC el archivo de configuración del repositorio.job-auto-restart-rbac.yaml
SageMaker HyperPod CLI GitHub -
Operador de Kubeflow: el MPI operador es un MPIoperador
de Kubernetes que simplifica la ejecución de cargas de trabajo distribuidas de Machine Learning (ML) y computación de alto rendimiento () mediante la interfaz de paso de mensajes HPC () en los clústeres de Kubernetes. MPI Instala Operator v0.5. MPI Se instala en el espacio de nombres. mpi-operator
-
nvidia-device-plugin
— Se trata de un complemento para dispositivos de Kubernetes que te permite exponerlos automáticamente NVIDIA GPUs para su consumo en los contenedores de tu clúster de Amazon. EKS Permite a Kubernetes asignar y proporcionar acceso a lo solicitado para ese contenedor. GPUs Se requiere cuando se usa un tipo de instancia con. GPU -
neuron-device-plugin
— Se trata de un complemento para dispositivos de Kubernetes que te permite exponer automáticamente los chips AWS Inferentia para que los consuman los contenedores de tu clúster de Amazon. EKS Permite a Kubernetes acceder a los chips Inferentia de los nodos del clúster y utilizarlos. AWS Se requiere cuando se utiliza un tipo de instancia Neuron. -
aws-efa-k8s-device-plugin
— Se trata de un complemento para dispositivos de Kubernetes que permite el uso de AWS Elastic Fabric Adapter () EFA en clústeres de Amazon. EKS EFAes un dispositivo de red que proporciona una comunicación de baja latencia y alto rendimiento entre las instancias de un clúster. Se requiere cuando se utiliza un tipo de instancia EFA compatible.
Para obtener más información sobre el procedimiento de instalación mediante los gráficos de Helm proporcionados, consulta el README archivo del SageMaker HyperPod CLI repositorio