Lavori paralleli multinodo - AWS Batch

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Lavori paralleli multinodo

Puoi utilizzare processi paralleli multinodo per eseguire singoli processi che si estendono su più istanze AmazonEC2. Con i processi paralleli a AWS Batch più nodi (noti anche come pianificazione di gruppo), puoi eseguire applicazioni di elaborazione su larga scala e ad alte prestazioni e addestrare GPU modelli distribuiti senza la necessità di avviare, configurare e gestire direttamente le risorse Amazon. EC2 Un job parallelo AWS Batch multinodo è compatibile con qualsiasi framework che supporti la comunicazione tra nodi basata su IP. Gli esempi includono Apache MXNet TensorFlow, Caffe2 o Message Passing Interface (). MPI

I processi paralleli a più nodi vengono inviati come un singolo processo. Tuttavia, la definizione del processo (o sostituzioni del nodo di invio del processo) specifica il numero di nodi da creare per il processo e quali gruppi di nodo creare. Ogni processo parallelo a più nodi contiene un nodo principale, che viene avviato prima. Una volta che il nodo principale è disponibile, i nodi figlio vengono lanciati e avviati. Il processo è terminato solo se il nodo principale esce. Tutti i nodi secondari vengono quindi interrotti. Per ulteriori informazioni, consulta Gruppi di nodi.

I nodi di lavoro paralleli multinodo sono single-tenant. Ciò significa che su ogni EC2 istanza Amazon viene eseguito un solo contenitore di job.

Lo stato del processo finale (SUCCEEDED o FAILED) è determinato dallo stato del processo finale del nodo principale. Per conoscere lo stato di un processo parallelo a più nodi, descrivi il lavoro utilizzando l'ID del lavoro restituito al momento dell'invio del lavoro. Se hai bisogno dei dettagli per i nodi secondari, descrivi ogni nodo figlio singolarmente. È possibile indirizzare i nodi utilizzando la #N notazione (a partire da 0). Ad esempio, per accedere ai dettagli del secondo nodo di un lavoro, descrivi aws_batch_job_id#1 utilizzando l' AWS Batch DescribeJobsAPIoperazione. Le informazioni started, stoppedAt, statusReason e exit per un processo parallelo a più nodi, vengono popolate dal nodo principale.

Se si specificano nuovi tentativi di lavoro, un errore del nodo principale causa un altro tentativo. Gli errori dei nodi secondari non causano ulteriori tentativi. Ogni nuovo tentativo di un processo parallelo a più nodi aggiorna il tentativo corrispondente dei suoi nodi figlio associati.

Per eseguire lavori paralleli a più nodi AWS Batch, il codice dell'applicazione deve contenere i framework e le librerie necessari per la comunicazione distribuita.