Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Ejecute los trabajos mediante el SageMaker HyperPod CLI
Para ejecutar los trabajos, asegúrate de haber instalado Kubeflow Training Operator en los clústeres. EKS Para obtener más información, consulte Instalar paquetes en el EKS clúster de Amazon con Helm.
Ejecuta el hyperpod get-cluster
comando para obtener la lista de clústeres disponibles HyperPod .
hyperpod get-clusters
Ejecute el hyperpod connect-cluster
para configurarlo SageMaker HyperPod CLI con el EKS clúster que organiza el HyperPod clúster.
hyperpod connect-cluster --cluster-name <hyperpod-cluster-name>
Utilice el hyperpod start-job
comando para ejecutar un trabajo. El comando siguiente muestra el comando con las opciones necesarias.
hyperpod start-job \ --job-name
<job-name>
--image<docker-image-uri>
--entry-script<entrypoint-script>
--instance-type<ml.instance.type>
--node-count<integer>
El hyperpod start-job
comando también incluye varias opciones para mejorar la resiliencia de los trabajos
Habilitar la reanudación automática del trabajo
El hyperpod start-job
comando también tiene las siguientes opciones para especificar la reanudación automática del trabajo. Para permitir que la reanudación automática del trabajo funcione con las funciones de resiliencia de los SageMaker HyperPod nodos, debe establecer el valor de la restart-policy
opción en. OnFailure
El trabajo debe ejecutarse en el espacio de nombres o en un espacio de kubeflow
nombres con el prefijo. hyperpod
-
[--auto-resume<bool>] #Optional, habilita la reanudación automática del trabajo después de un error, el valor predeterminado es false
-
[--max-retry<int>] #Optional, si la reanudación automática es verdadera, el valor predeterminado de max-retry es 1 si no se especifica
-
<enum>[--restart-policy] #Optional, política de reinicio. PyTorchJob Los valores disponibles son
Always
, o.OnFailure
Never
ExitCode
El valor predeterminado esOnFailure
.
hyperpod start-job \ ... // required options \ --auto-resume true \ --max-retry 3 \ --restart-policy OnFailure
Ejecutar trabajos con opciones de programación
El hyperpod start-job
comando tiene las siguientes opciones para configurar el trabajo con mecanismos de cola.
nota
Necesitas que Kueue
-
[--scheduler-type<enum>] #Optional, especifique el tipo de planificador. El valor predeterminado es
Kueue
. -
[--queue-name] #Optional, especifique el nombre de la cola local o la cola
de clúster que desea enviar con el trabajo. <string> Los administradores del clúster deben crear la cola. -
[--priority<string>] #Optional, especifique el nombre de la clase de prioridad de carga
de trabajo, que deben crear los administradores del clúster.
hyperpod start-job \ ... // required options --scheduler-type Kueue \ --queue-name high-priority-queue \ --priority high
Ejecutar trabajos desde un archivo de configuración
Como alternativa, puede crear un archivo de configuración del trabajo que contenga todos los parámetros necesarios para el trabajo y, a continuación, pasar este archivo de configuración al hyperpod
start-job
comando mediante la opción --config-file. En este caso:
-
Cree el archivo de configuración del trabajo con los parámetros necesarios. Consulte el archivo de configuración de trabajos del SageMaker HyperPod CLI GitHub repositorio para obtener un archivo de configuración de referencia.
-
Inicie el trabajo mediante el archivo de configuración de la siguiente manera.
hyperpod start-job --config-file
/path/to/test_job.yaml
Para obtener más información sobre la lista de parámetros individuales del hyperpod
start-job
comando, consulte la sección Enviar un trabajoREADME.md
SageMaker HyperPod CLI GitHub repositorio.