Trabajos paralelos de varios nodos

Puede utilizar trabajos paralelos de varios nodos para ejecutar trabajos individuales que abarquen varias EC2 instancias de Amazon. Con los trabajos paralelos de AWS Batch varios nodos (también conocidos como programación de bandas), puede ejecutar aplicaciones informáticas de alto rendimiento a gran escala y entrenamiento de GPU modelos distribuidos sin necesidad de lanzar, configurar y administrar EC2 los recursos de Amazon directamente. Un trabajo paralelo de AWS Batch varios nodos es compatible con cualquier marco que admita la comunicación entre nodos basada en IP. Algunos ejemplos son Apache MXNet TensorFlow, Caffe2 o Message Passing Interface (). MPI

Los trabajos paralelos de varios nodos se envían como un único trabajo. Sin embargo, la definición de trabajo (o las anulaciones de nodos de envío de trabajos) especifica el número de nodos que se deben crear para el trabajo y qué grupos de nodos deben crearse. Cada trabajo paralelo de varios nodos contiene un nodo principal, que se lanza en primer lugar. Una vez que el nodo principal está en marcha, se lanzan e inician los nodos secundarios. El trabajo finaliza solo si sale el nodo principal. A continuación, se detienen todos los nodos secundarios. Para obtener más información, consulte Grupos de nodos.

Los nodos de trabajo paralelos de varios nodos son de un solo inquilino. Esto significa que solo se ejecuta un contenedor de trabajos en cada EC2 instancia de Amazon.

El estado final del trabajo (SUCCEEDED o FAILED) lo determina el estado final del trabajo del nodo principal. Para obtener el estado de un trabajo paralelo de varios nodos, puede describir el trabajo utilizando el ID de trabajo obtenido al enviar el trabajo. Si necesita los detalles de los nodos secundarios, deberá describir cada nodo secundario por separado. Puede direccionar los nodos mediante la notación #N (empezando por 0). Por ejemplo, para acceder a los detalles del segundo nodo de un trabajo, describe aws_batch_job_id #1 mediante la AWS Batch DescribeJobsAPIoperación. La información started, stoppedAt, statusReason y exit de un trabajo paralelo de varios nodos se rellena desde el nodo principal.

Si especifica los reintentos de trabajo, un error en el nodo principal provocará otro intento. Los errores en los nodos secundarios no provocan que se produzcan más intentos. Cada nuevo intento de un trabajo paralelo de varios nodos actualiza el intento correspondiente de sus nodos secundarios asociados.

Para ejecutar trabajos paralelos de varios nodos AWS Batch, el código de la aplicación debe contener los marcos y las bibliotecas necesarios para la comunicación distribuida.

Temas

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Tutorial: reasignación de un pod en ejecución a su función

Variables de entorno