Ejecute los trabajos mediante el SageMaker HyperPod CLI - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Ejecute los trabajos mediante el SageMaker HyperPod CLI

Para ejecutar los trabajos, asegúrate de haber instalado Kubeflow Training Operator en los clústeres. EKS Para obtener más información, consulte Instalar paquetes en el EKS clúster de Amazon con Helm.

Ejecuta el hyperpod get-cluster comando para obtener la lista de clústeres disponibles HyperPod .

hyperpod get-clusters

Ejecute el hyperpod connect-cluster para configurarlo SageMaker HyperPod CLI con el EKS clúster que organiza el HyperPod clúster.

hyperpod connect-cluster --cluster-name <hyperpod-cluster-name>

Utilice el hyperpod start-job comando para ejecutar un trabajo. El comando siguiente muestra el comando con las opciones necesarias.

hyperpod start-job \ --job-name <job-name> --image <docker-image-uri> --entry-script <entrypoint-script> --instance-type <ml.instance.type> --node-count <integer>

El hyperpod start-job comando también incluye varias opciones para mejorar la resiliencia de los trabajos

Habilitar la reanudación automática del trabajo

El hyperpod start-job comando también tiene las siguientes opciones para especificar la reanudación automática del trabajo. Para permitir que la reanudación automática del trabajo funcione con las funciones de resiliencia de los SageMaker HyperPod nodos, debe establecer el valor de la restart-policy opción en. OnFailure El trabajo debe ejecutarse en el espacio de nombres o en un espacio de kubeflow nombres con el prefijo. hyperpod

  • [--auto-resume<bool>] #Optional, habilita la reanudación automática del trabajo después de un error, el valor predeterminado es false

  • [--max-retry<int>] #Optional, si la reanudación automática es verdadera, el valor predeterminado de max-retry es 1 si no se especifica

  • <enum>[--restart-policy] #Optional, política de reinicio. PyTorchJob Los valores disponibles sonAlways, o. OnFailure Never ExitCode El valor predeterminado es OnFailure.

hyperpod start-job \ ... // required options \ --auto-resume true \ --max-retry 3 \ --restart-policy OnFailure

Ejecutar trabajos con opciones de programación

El hyperpod start-job comando tiene las siguientes opciones para configurar el trabajo con mecanismos de cola.

nota

Necesitas que Kueue esté instalado en el clúster. EKS Si no lo ha instalado, siga las instrucciones que aparecen en. Instalar paquetes en el EKS clúster de Amazon con Helm

hyperpod start-job \ ... // required options --scheduler-type Kueue \ --queue-name high-priority-queue \ --priority high

Ejecutar trabajos desde un archivo de configuración

Como alternativa, puede crear un archivo de configuración del trabajo que contenga todos los parámetros necesarios para el trabajo y, a continuación, pasar este archivo de configuración al hyperpod start-job comando mediante la opción --config-file. En este caso:

  1. Cree el archivo de configuración del trabajo con los parámetros necesarios. Consulte el archivo de configuración de trabajos del SageMaker HyperPod CLI GitHub repositorio para obtener un archivo de configuración de referencia.

  2. Inicie el trabajo mediante el archivo de configuración de la siguiente manera.

    hyperpod start-job --config-file /path/to/test_job.yaml

Para obtener más información sobre la lista de parámetros individuales del hyperpod start-job comando, consulte la sección Enviar un trabajo en el README.md SageMaker HyperPod CLI GitHub repositorio.