Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Cómo empezar a utilizar el EKS soporte de Amazon en SageMaker HyperPod
Además del formulario general Requisitos previos para utilizar SageMaker HyperPod SageMaker HyperPod, consulta los siguientes requisitos y consideraciones para organizar SageMaker HyperPod clústeres con AmazonEKS.
Requisitos
nota
Antes de crear un HyperPod clúster, necesitas un EKS clúster de Amazon en ejecución configurado VPC e instalado con Helm.
-
Si utilizas la consola SageMaker AI, puedes crear un EKS clúster de Amazon en la página de la consola de HyperPod clústeres. Para obtener más información, consulte Crear un clúster SageMaker HyperPod .
-
Si lo usas AWS CLI, debes crear un EKS clúster de Amazon antes de crear un HyperPod clúster al que asociarte. Para obtener más información, consulta Crear un EKS clúster de Amazon en la Guía del EKS usuario de Amazon.
Al aprovisionar tu EKS clúster de Amazon, ten en cuenta lo siguiente:
-
Compatibilidad con la versión de Kubernetes
-
SageMaker HyperPod es compatible con las versiones 1.28, 1.29 y 1.30 de Kubernetes.
-
-
Modo de autenticación EKS de clústeres de Amazon
-
El modo de autenticación de un EKS clúster de Amazon compatible con SageMaker HyperPod son
API
yAPI_AND_CONFIG_MAP
.
-
-
Redes
-
SageMaker HyperPod requiere la versión 1.18.3 o posterior del complemento Amazon VPC Container Network Interface (CNI).
nota
AWS VPCCNIel complemento para Kubernetes
es el único compatible con. CNI SageMaker HyperPod -
En el caso de los clústeres, el tipo de subred VPC debe ser privado. HyperPod
-
-
Roles de IAM
-
Asegúrese de que las IAM funciones necesarias HyperPod estén configuradas tal y como se indica en la AWS Identity and Access Management para SageMaker HyperPod sección.
-
-
Complementos para EKS clústeres de Amazon
-
Puedes seguir utilizando los distintos complementos que ofrece Amazon, EKS como Kube-proxy, Core, DNS el complemento Amazon VPC Container Network Interface (CNI), la identidad del EKS pod de Amazon, el GuardDuty agente, el controlador Amazon FSx Container Storage Interface (CSI), el controlador Mountpoint para Amazon CSI S3, AWS la Distro OpenTelemetry for y el agente Observability. CloudWatch
-
Consideraciones para configurar SageMaker HyperPod clústeres con Amazon EKS
-
No puedes montar EBS volúmenes adicionales directamente en los pods que se ejecutan en los nodos HyperPod del clúster. En su lugar, debe utilizarlos InstanceStorageConfigspara aprovisionar y montar EBS volúmenes adicionales en los HyperPod nodos. Es importante tener en cuenta que solo puedes adjuntar EBS volúmenes adicionales a nuevos grupos de instancias al crear o actualizar un HyperPod clúster. Una vez que hayas configurado los grupos de instancias con estos EBS volúmenes adicionales, en el archivo de configuración de Amazon EKS Pod, tendrás que establecer la ruta local
/opt/sagemaker
para montar correctamente los volúmenes en tus Amazon EKS Pods. -
Puede implementar el controlador Amazon EBS CSI (Container Storage Interface) en HyperPod los nodos. Sin embargo, el EBS CSI nodo Amazon DaemonSet, que facilita el montaje y desmontaje de EBS volúmenes, solo puede ejecutarse en HyperPod instancias ajenas. Si utilizas etiquetas de tipo de instancia para definir las restricciones de programación, asegúrate de usar los tipos de instancias de SageMaker AI ML con el prefijo.
ml.
Por ejemplo, para las instancias P5, utiliceml.p5.48xlarge
en lugar dep5.48xlarge
.
Consideraciones para configurar la red para SageMaker HyperPod clústeres con Amazon EKS
-
Cada instancia de HyperPod clúster admite una interfaz de red elástica (ENI). Para conocer la cantidad máxima de pods por tipo de instancia, consulte la siguiente tabla.
Tipo de instancia Número máximo de pods ml.p4d.24xlarge 49 ml.p4de.24xlarge 49 ml.p5.48xlarge 49 ml.trn1.32xlarge 49 ml.trn1n.32xlarge 49 ml.g5.xlarge 14 ml.g5.2xlarge 14 ml.g5.4xlarge 29 ml.g5.8xlarge 29 ml.g5.12xlarge 49 ml.g5.16xlarge 29 ml.g5.24xlarge 49 ml.g5.48xlarge 49 ml.c5.large 9 ml.c5.xlarge 14 ml.c5.2xlarge 14 ml.c5.4xlarge 29 ml.c5.9xlarge 29 ml.c5.12xlarge 29 ml.c5.18xlarge 49 ml.c5.24xlarge 49 ml.c5n.large 9 ml.c5n.2xlarge 14 ml.c5n.4xlarge 29 ml.c5n.9xlarge 29 ml.c5n.18xlarge 49 ml.m5.large 9 ml.m5.xlarge 14 ml.m5.2xlarge 14 ml.m5.4xlarge 29 ml.m5.8xlarge 29 ml.m5.12xlarge 29 ml.m5.16xlarge 49 ml.m5.24xlarge 49 ml.t3.medium 5 ml.t3.large 11 ml.t3.xlarge 14 ml.t3.2xlarge 14 ml.g6.xlarge 14 ml.g6.2xlarge 14 ml.g6.4 x grande 29 ml.g 6,8 x grande 29 ml.g6.12x grande 29 ml.g6.16x grande 49 ml.g 6.24 x grande 49 ml.g 6,48 x grande 49 ml.gr 6,4 x grande 29 ml.gr 6,8 x grande 29 ml.g6e.xlarge 14 ml.g6e.2xlarge 14 ml.g6e.4xlarge 29 ml.g6e.8xlarge 29 ml.g6e.12x grande 29 ml.g6e.16x grande 49 ml.g6e. 24 x grande 49 ml.g6e.48 x grande 49 ml.p5e.48 x grande 49 -
De forma predeterminada, solo
hostNetwork = true
los pods con acceso al Amazon EC2 Instance Metadata Service (IMDS). Usa la identidad de Amazon EKS Pod o los IAMroles de las cuentas de servicio (IRSA) para administrar el acceso a las AWS credenciales de los pods. -
SageMaker HyperPod Los clústeres actualmente solo admiten direcciones IPv4 IP. IPv6 En este momento, no se admite el direccionamiento IP.
Consideraciones sobre el uso de las HyperPod funciones de resiliencia del clúster
-
CPULas instancias no admiten el reemplazo automático de nodos.
-
El agente de supervisión del HyperPod estado debe estar instalado para que funcione la recuperación automática del nodo. El agente se puede instalar mediante Helm. Para obtener más información, consulte Instalar paquetes en el EKS clúster de Amazon con Helm.
-
El agente de control de estado HyperPod profundo y monitoreo del estado es compatible con GPU las instancias Trn.
-
SageMaker La IA afecta de la siguiente manera a los nodos cuando se someten a controles de estado exhaustivos:
effect: NoSchedule key: sagemaker.amazonaws.com/node-health-status value: Unschedulable
nota
No puede añadir taints personalizadas a los nodos de los grupos de instancias con la opción
DeepHealthChecks
activada.
Una vez que el EKS clúster de Amazon esté en ejecución, configúrelo con el administrador de paquetes Helm tal y como se indica Instalar paquetes en el EKS clúster de Amazon con Helm antes de crear el HyperPod clúster.