Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Al enviar un trabajo paralelo de varios nodos, el trabajo entra en el estado SUBMITTED
. A continuación, el trabajo espera a que finalicen todas las dependencias del trabajo. El trabajo también pasa al estado RUNNABLE
. Por último, AWS Batch aprovisiona la capacidad de instancia necesaria para ejecutar el trabajo y lanza estas instancias.
Cada trabajo paralelo de varios nodos contiene un nodo principal. El nodo principal es una subtarea única que AWS Batch supervisa para determinar el resultado del trabajo de varios nodos enviado. El nodo principal se lanza en primer lugar y pasa a tener el estado STARTING
. El valor de tiempo de espera especificado en el parámetro attemptDurationSeconds
se aplica a todo el trabajo y no a los nodos.
Cuando el nodo principal alcanza el estado RUNNING
(después de que el contenedor del nodo se esté ejecutando), los nodos secundarios se lanzan y pasan al estado STARTING
. Los nodos secundarios aparecen en orden aleatorio. No hay ninguna garantía sobre la sincronización o el orden del lanzamiento de los nodos secundarios. Para asegurarse de que todos los nodos de los trabajos están en el estado RUNNING
después de que el contenedor del nodo se está ejecutando, el código de la aplicación puede consultar la API de AWS Batch para obtener información sobre el nodo principal y los nodos secundarios. Como alternativa, el código de la aplicación puede esperar hasta que todos los nodos estén en línea antes de iniciar cualquier tarea de procesamiento distribuido. La dirección IP privada del nodo principal está disponible en la variable de entorno AWS_BATCH_JOB_MAIN_NODE_PRIVATE_IPV4_ADDRESS
de cada nodo secundario. El código de la aplicación puede utilizar esta información para coordinar y comunicar datos entre cada una de las tareas.
A medida que finalizan los nodos individuales, pasan al estado SUCCEEDED
o FAILED
, en función de su código de salida. Si finaliza el nodo principal, se considera que el trabajo ha finalizado y todos los nodos secundarios se detienen. Si un nodo secundario muere, AWS Batch no realiza ninguna acción en los demás nodos del trabajo. Si no desea que el trabajo continúe con una cantidad reducida de nodos, debe tenerlo en cuenta en el código de la aplicación. De este modo, se termina o se cancela el trabajo.