Uso de la interfaz de usuario SageMaker HyperPod de la consola - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Uso de la interfaz de usuario SageMaker HyperPod de la consola

Cree su primer SageMaker HyperPod clúster mediante la interfaz de usuario de la SageMaker HyperPod consola.

Crea tu primer SageMaker HyperPod clúster con Slurm

El siguiente tutorial muestra cómo crear un nuevo SageMaker HyperPod clúster y configurarlo con Slurm a través de la interfaz de usuario de la consola. SageMaker Tras el tutorial, crearás un HyperPod clúster con tres nodos de Slurm,, ymy-controller-group. my-login-group worker-group-1

  1. Abre la SageMaker consola de Amazon en https://console.aws.amazon.com/sagemaker/.

  2. Selecciona HyperPod Clusters en el panel de navegación izquierdo.

  3. En la página SageMaker HyperPod Clústeres, elija Crear clúster.

  4. En el paso 1: Configuración del clúster, especifique un nombre para el nuevo clúster. Omita la sección de etiquetas.

  5. En el paso 2: Grupos de instancias, agrega grupos de instancias. Cada grupo de instancias se puede configurar de forma diferente y puedes crear un clúster heterogéneo compuesto por varios grupos de instancias con varios tipos de instancias. Para que los scripts de configuración del ciclo de vida se ejecuten en el grupo de instancias durante la creación del clúster, puedes empezar con los ejemplos de scripts de ciclo de vida que se proporcionan en el repositorio de Awsome Distributed Training GitHub .

    1. En Nombre del grupo de instancias, especifica un nombre para el grupo de instancias. Para este tutorial, crea tres grupos de instancias llamados my-controller-groupmy-login-group, yworker-group-1.

    2. En Selecciona el tipo de instancia, elige la instancia para el grupo de instancias. Para este tutorial, selecciona ml.c5.xlarge para my-controller-groupmy-login-group, ml.m5.4xlarge para y ml.trn1.32xlarge paraworker-group-1.

      Asegúrese de elegir el tipo de instancia con cuotas suficientes en su cuenta o solicite cuotas adicionales haciendo clic enSageMaker HyperPod cuotas.

    3. En Cantidad, especifica un número entero que no exceda la cuota de instancias para el uso del clúster. En este tutorial, introduce 1 para los tres grupos.

    4. En el caso de la ruta de S3 a los archivos de scripts del ciclo de vida, introduzca la ruta de Amazon S3 en la que se almacenan los scripts del ciclo de vida. Si no tiene scripts de ciclo de vida, siga los siguientes pasos secundarios para usar los scripts de ciclo de vida básicos proporcionados por el equipo de SageMaker HyperPod servicio.

      1. Clona el repositorio de Awsome Distributed Training GitHub.

        git clone https://github.com/aws-samples/awsome-distributed-training/
      2. En 1.architectures/5.sagemaker_hyperpods/LifecycleScripts/base-configesta sección encontrarás un conjunto de scripts básicos del ciclo de vida. Para obtener más información sobre los scripts del ciclo de vida, consulte tambiénPersonalice SageMaker HyperPod los clústeres mediante scripts de ciclo de vida.

      3. Escriba un archivo de configuración de Slurm y guárdelo como. provisioning_params.json En el archivo, especifique los parámetros de configuración básicos de Slurm para asignar correctamente los nodos de Slurm a los grupos de instancias del clúster. SageMaker HyperPod Por ejemplo, provisioning_params.json debe ser similar a lo siguiente en función del grupo de instancias del HyperPod clúster configurado mediante los pasos anteriores 5a, 5b y 5c.

        { "version": "1.0.0", "workload_manager": "slurm", "controller_group": "my-controller-group", "login_group": "my-login-group", "worker_groups": [ { "instance_group_name": "worker-group-1", "partition_name": "partition-1" } ] }
      4. Cargue los scripts en su bucket de Amazon S3. Cree un bucket de S3 con una ruta en el siguiente formato:s3://sagemaker-<unique-s3-bucket-name>/<lifecycle-script-directory>/src. Puede crear este depósito mediante la consola Amazon S3.

        nota

        Debe poner un prefijo sagemaker- a la ruta del bucket de S3, ya que la función IAMrol para SageMaker HyperPod with AmazonSageMakerClusterInstanceRolePolicy solo permite que los principales accedan a los buckets de S3 con este prefijo específico.

    5. En la ruta del directorio al script de ciclo de vida que se creó al crearse, introduzca el nombre del archivo del script de ciclo de vida en la sección Ruta de acceso de S3 a los archivos del script de ciclo de vida.

    6. Para el IAMrol, elija el IAM rol que creó en AmazonSageMakerClusterInstanceRolePolicy la secciónIAMrol para SageMaker HyperPod.

    7. En Configuración avanzada, puede configurar las siguientes configuraciones opcionales.

      1. (Opcional) Para los subprocesos por núcleo, especifique si se deshabilitan 1 los subprocesos múltiples y 2 si se habilitan los subprocesos múltiples. Para saber qué tipo de instancia admite subprocesos múltiples, consulte la tabla de referencia de CPUnúcleos y subprocesos por CPU núcleo y por tipo de instancia en la Guía del usuario de Amazon Elastic Compute Cloud.

      2. (Opcional) Para configuraciones de almacenamiento de instancias adicionales, especifique un número entero entre 1 y 16384 para establecer el tamaño de un volumen adicional de Elastic Block Store (EBS) en gigabytes (GB). El EBS volumen se adjunta a cada instancia del grupo de instancias. La ruta de montaje predeterminada para el EBS volumen adicional es/opt/sagemaker. Una vez que el clúster se haya creado correctamente, puede SSH acceder a las instancias del clúster (nodos) y comprobar si el EBS volumen está montado correctamente ejecutando el df -h comando. Adjuntar un EBS volumen adicional proporciona un almacenamiento estable, fuera de la instancia y persistente de forma independiente, tal y como se describe en la sección de EBSvolúmenes de Amazon de la Guía del usuario de Amazon Elastic Block Store.

  6. En el paso 3: Configuración avanzada, configure los ajustes de red dentro, dentro y fuera del clúster. Seleccione la suya propia VPC si ya tiene una que le dé SageMaker acceso a la suyaVPC. Si no tiene uno pero quiere crear uno nuevoVPC, siga las instrucciones de la Guía del usuario de Amazon Virtual Private Cloud VPC en la Guía del usuario de Amazon Virtual Private Cloud. Puede dejarlo como no VPC para usar el valor predeterminado SageMaker VPC.

  7. En el paso 4: revisar y crear, revise la configuración que estableció del paso 1 al 3 y termine de enviar la solicitud de creación del clúster.

  8. El nuevo clúster debería aparecer en Clústeres en el panel principal de la SageMaker HyperPod consola. Puede comprobar el estado del mismo que se muestra en la columna Estado.

  9. Cuando el estado del clúster cambie aInService, puede empezar a iniciar sesión en los nodos del clúster. Para acceder a los nodos del clúster y empezar a ejecutar cargas de trabajo de aprendizaje automático, consultePuestos de trabajo en SageMaker HyperPod clústeres.

Elimine el clúster y limpie los recursos

Una vez que haya probado correctamente la creación de un SageMaker HyperPod clúster, seguirá ejecutándose en ese InService estado hasta que lo elimine. Le recomendamos que elimine los clústeres creados con SageMaker instancias bajo demanda cuando no estén en uso para evitar incurrir en cargos de servicio continuos en función de los precios bajo demanda. En este tutorial, ha creado un clúster que consta de dos grupos de instancias. Uno de ellos usa una instancia C5, así que asegúrate de eliminar el clúster siguiendo las instrucciones que aparecen enEliminar un SageMaker HyperPod clúster.

Sin embargo, si ha creado un clúster con capacidad informática reservada, el estado de los clústeres no afecta a la facturación del servicio.

Para limpiar los scripts del ciclo de vida del depósito de S3 utilizado en este tutorial, vaya al depósito de S3 que utilizó durante la creación del clúster y elimine los archivos por completo.

Si ha probado la ejecución de alguna carga de trabajo en el clúster, asegúrese de haber cargado datos o de haber guardado algún artefacto en distintos buckets de S3 o servicios de sistema de archivos, como Amazon FSx for Lustre y Amazon Elastic File System. Para evitar que se incurra en cargos, elimine todos los artefactos y datos del almacenamiento o del sistema de archivos.