Ciclo de vida laboral para trabajos de MNP

Al enviar un trabajo paralelo de varios nodos, el trabajo entra en el estado SUBMITTED. A continuación, el trabajo espera a que finalicen todas las dependencias del trabajo. El trabajo también pasa al estado RUNNABLE. Por último, AWS Batch aprovisiona la capacidad de instancia necesaria para ejecutar el trabajo y lanza estas instancias.

Cada trabajo paralelo de varios nodos contiene un nodo principal. El nodo principal es una subtarea única que AWS Batch supervisa para determinar el resultado del trabajo de varios nodos enviado. El nodo principal se lanza en primer lugar y pasa a tener el estado STARTING. El valor de tiempo de espera especificado en el parámetro attemptDurationSeconds se aplica a todo el trabajo y no a los nodos.

Cuando el nodo principal alcanza el estado RUNNING (después de que el contenedor del nodo se esté ejecutando), los nodos secundarios se lanzan y pasan al estado STARTING. Los nodos secundarios aparecen en orden aleatorio. No hay ninguna garantía sobre la sincronización o el orden del lanzamiento de los nodos secundarios. Para asegurarse de que todos los nodos de los trabajos están en el estado RUNNING después de que el contenedor del nodo se está ejecutando, el código de la aplicación puede consultar la API de AWS Batch para obtener información sobre el nodo principal y los nodos secundarios. Como alternativa, el código de la aplicación puede esperar hasta que todos los nodos estén en línea antes de iniciar cualquier tarea de procesamiento distribuido. La dirección IP privada del nodo principal está disponible en la variable de entorno AWS_BATCH_JOB_MAIN_NODE_PRIVATE_IPV4_ADDRESS de cada nodo secundario. El código de la aplicación puede utilizar esta información para coordinar y comunicar datos entre cada una de las tareas.

A medida que finalizan los nodos individuales, pasan al estado SUCCEEDED o FAILED, en función de su código de salida. Si finaliza el nodo principal, se considera que el trabajo ha finalizado y todos los nodos secundarios se detienen. Si un nodo secundario muere, AWS Batch no realiza ninguna acción en los demás nodos del trabajo. Si no desea que el trabajo continúe con una cantidad reducida de nodos, debe tenerlo en cuenta en el código de la aplicación. De este modo, se termina o se cancela el trabajo.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Grupos de nodos

Consideraciones del entorno de computación