Uso de la interfaz de usuario SageMaker HyperPod de la consola - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Uso de la interfaz de usuario SageMaker HyperPod de la consola

Cree su primer SageMaker HyperPod clúster mediante la interfaz de usuario de la SageMaker HyperPod consola.

Crea tu primer SageMaker HyperPod clúster con Slurm

El siguiente tutorial muestra cómo crear un nuevo SageMaker HyperPod clúster y configurarlo con Slurm a través de la interfaz de usuario de la SageMaker consola de IA. Tras el tutorial, crearás un HyperPod clúster con tres nodos de Slurm,, ymy-controller-group. my-login-group worker-group-1

  1. Abre la consola Amazon SageMaker AI en https://console.aws.amazon.com/sagemaker/.

  2. Elija HyperPod Clusters en el panel de navegación izquierdo.

  3. En la página SageMaker HyperPod Clusters (Clústeres), elija Create Cluster (Crear clúster).

  4. En Paso 1: configuración del clúster, especifique un nombre para el nuevo clúster. Sáltese la sección Etiquetas.

  5. En Paso 2: grupos de instancias, añada grupos de instancias. Cada grupo de instancias se puede configurar de una forma diferente y se puede crear un clúster heterogéneo que conste de varios grupos de instancias con diversos tipos de instancias. Para que los scripts de configuración del ciclo de vida se ejecuten en el grupo de instancias durante la creación del clúster, puedes empezar con los ejemplos de scripts de ciclo de vida que se proporcionan en el GitHub repositorio de Awsome Distributed Training.

    1. En Nombre del grupo de instancias, especifique un nombre para el grupo de instancias. Para este tutorial, cree tres grupos de instancias llamados my-controller-group, my-login-group y worker-group-1.

    2. En Seleccionar tipo de instancia, elija la instancia para el grupo de instancias. Para este tutorial, seleccione ml.c5.xlarge para my-controller-group, ml.m5.4xlarge para my-login-group y ml.trn1.32xlarge para worker-group-1.

      Asegúrese de elegir el tipo de instancia con cuotas suficientes en su cuenta o solicite cuotas adicionales accediendo a SageMaker HyperPod cuotas.

    3. En Cantidad, especifique un número entero que no supere la cuota de instancias para el uso del clúster. Para este tutorial, introduzca 1 para los tres grupos.

    4. En Ruta de S3 a los archivos de los scripts de ciclo de vida, introduzca la ruta de Amazon S3 en la que estén almacenados los scripts de ciclo de vida. Si no tienes scripts de ciclo de vida, sigue los siguientes pasos secundarios para usar los scripts de ciclo de vida básicos proporcionados por el equipo de SageMaker HyperPod servicio.

      1. Clona el repositorio de Awsome Distributed Training GitHub.

        git clone https://github.com/aws-samples/awsome-distributed-training/
      2. En 1.architectures/5.sagemaker_hyperpods/LifecycleScripts/base-config, encontrará un conjunto de scripts de ciclo de vida básicos. Para obtener más información sobre los scripts de ciclo de vida, consulte también Personalice SageMaker HyperPod los clústeres mediante scripts de ciclo de vida.

      3. Escriba un archivo de configuración de Slurm y guárdelo como provisioning_params.json. En el archivo, especifique los parámetros de configuración básicos de Slurm para asignar correctamente los nodos de Slurm a los grupos de instancias del clúster. SageMaker HyperPod Por ejemplo, provisioning_params.json debe ser similar a lo siguiente en función del grupo de instancias del HyperPod clúster configurado mediante los pasos anteriores 5a, 5b y 5c.

        { "version": "1.0.0", "workload_manager": "slurm", "controller_group": "my-controller-group", "login_group": "my-login-group", "worker_groups": [ { "instance_group_name": "worker-group-1", "partition_name": "partition-1" } ] }
      4. Cargue los scripts en el bucket de Amazon S3. Cree un bucket de S3 con una ruta en el siguiente formato: s3://sagemaker-<unique-s3-bucket-name>/<lifecycle-script-directory>/src. Puede crear este bucket usando la consola de Amazon S3.

        nota

        Debe añadir el prefijo sagemaker- a la ruta del bucket de S3, ya que el Función de IAM para SageMaker HyperPod con AmazonSageMakerClusterInstanceRolePolicy solo permite que las entidades principales accedan a los buckets de S3 con este prefijo específico.

    5. En Ruta de directorio al script de ciclo de vida en el momento de la creación, introduzca el nombre del archivo del script de ciclo de vida que aparece en Ruta de Amazon S3 a los archivos de los scripts de ciclo de vida.

    6. En Rol de IAM, elija el rol de IAM que creó al utilizar la AmazonSageMakerClusterInstanceRolePolicy de la sección Función de IAM para SageMaker HyperPod.

    7. En Configuración avanzada, puede ajustar las siguientes configuraciones opcionales.

      1. (Opcional) En Subprocesos por núcleo, especifique 1 para deshabilitar los subprocesos múltiples y 2 para habilitar los subprocesos múltiples. Para saber qué tipo de instancia admite subprocesos múltiples, consulte la tabla de referencia de los núcleos de CPU y subprocesos por núcleo de CPU y tipo de instancia que aparece en la Guía del usuario de Amazon Elastic Compute Cloud.

      2. (Opcional) En Configuraciones de almacenamiento de instancias adicionales, especifique un número entero entre 1 y 16384 para establecer el tamaño de un volumen adicional de Elastic Block Store (EBS) en gigabytes (GB). El volumen de EBS está asociado a cada instancia del grupo de instancias. La ruta de montaje predeterminada para el volumen de EBS adicional es /opt/sagemaker. Una vez que el clúster se haya creado correctamente, puede utilizar SSH en las instancias del clúster (nodos) y verificar si el volumen de EBS está montado correctamente ejecutando el comando df -h. La conexión de un volumen de EBS adicional proporciona un almacenamiento estable, fuera de la instancia y persistente de forma independiente, tal y como se describe en la sección Amazon EBS volumes de la Guía del usuario de Amazon Elastic Block Store.

  6. En Paso 3: configuración avanzada, ajuste la configuración de red de dentro y fuera del clúster. Seleccione su propia VPC si ya tiene una que dé acceso de SageMaker IA a su VPC. Si no tiene una VPC, pero quiere crear una nueva, siga las instrucciones de la sección Creación de una VPC de la Guía del usuario de Amazon Virtual Private Cloud. Puedes dejar que no sea una VPC para usar la VPC de IA predeterminada SageMaker .

  7. En Paso 4: revisar y crear, revise la configuración que ha establecido del paso 1 al 3 y termine de enviar la solicitud de creación del clúster.

  8. El nuevo clúster debería aparecer en Clústeres en el panel principal de la SageMaker HyperPod consola. También puede consultar su estado en la columna Estado.

  9. Cuando el estado del clúster cambie a InService, puede empezar a iniciar sesión en los nodos del clúster. Para acceder a los nodos del clúster y empezar a ejecutar cargas de trabajo de ML, consulte Puestos de trabajo en SageMaker HyperPod clústeres.

Eliminación del clúster y limpieza de recursos

Una vez que haya probado correctamente la creación de un SageMaker HyperPod clúster, seguirá ejecutándose en ese InService estado hasta que lo elimine. Te recomendamos que elimines los clústeres creados con instancias de SageMaker IA bajo demanda cuando no estén en uso para evitar incurrir en cargos de servicio continuos en función de los precios bajo demanda. En este tutorial, ha creado un clúster que consta de dos grupos de instancias. Uno de ellos utiliza una instancia C5, así que asegúrese de eliminar el clúster siguiendo las instrucciones que aparecen en Eliminar un SageMaker HyperPod clúster.

Sin embargo, si ha creado un clúster con una capacidad de computación reservada, el estado de los clústeres no afecta a la facturación de los servicios.

Para limpiar los scripts de ciclo de vida del bucket de S3 utilizado para este tutorial, vaya al bucket de S3 que utilizó durante la creación del clúster y elimine todos los archivos.

Si ha probado la ejecución de alguna carga de trabajo en el clúster, asegúrese de haber cargado datos o de haber guardado algún artefacto en distintos buckets de S3 o servicios de sistema de archivos, como Amazon FSx for Lustre y Amazon Elastic File System. Para evitar incurrir en gastos, elimine todos los artefactos y datos del almacenamiento o del sistema de archivos.