Tâches parallélisées sur plusieurs nœuds - AWS Batch

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Tâches parallélisées sur plusieurs nœuds

Vous pouvez utiliser des tâches parallèles à nœuds multiples pour exécuter des tâches uniques couvrant plusieurs EC2 instances Amazon. Grâce aux tâches parallèles sur AWS Batch plusieurs nœuds (également connues sous le nom de planification en groupe), vous pouvez exécuter des applications informatiques hautes performances à grande échelle et des formations de GPU modèles distribués sans avoir à lancer, configurer et gérer directement les EC2 ressources Amazon. Une tâche parallèle à AWS Batch nœuds multiples est compatible avec n'importe quel framework prenant en charge la communication entre nœuds basée sur IP. Les exemples incluent Apache MXNet TensorFlow, Caffe2 ou Message Passing Interface ()MPI.

Les tâches parallèles à plusieurs nœuds sont soumises en tant que tâche unique. Toutefois, votre définition de tâche (ou les remplacements de nœud de soumission de tâche) spécifie le nombre de nœuds à créer pour la tâche et les groupes de nœuds à créer. Chaque tâche parallèle à plusieurs nœuds contient un nœud principal qui est lancé en premier. Une fois le nœud principal lancé, les nœuds enfants sont lancés et démarrés. La tâche n'est terminée que si le nœud principal sort. Tous les nœuds enfants sont ensuite arrêtés. Pour de plus amples informations, veuillez consulter Groupes de nœuds.

Les nœuds de tâches parallèles à nœuds multiples sont à locataire unique. Cela signifie qu'un seul conteneur de tâches est exécuté sur chaque EC2 instance Amazon.

Le statut de la tâche finale (SUCCEEDED ou FAILED) est déterminé par le statut de la tâche finale du nœud principal. Pour connaître le statut d'une tâche parallèle à nœuds multiples, décrivez la tâche à l'aide de l'ID de tâche qui a été renvoyé lorsque vous l'avez soumise. Si vous avez besoin des informations relatives aux nœuds enfants, décrivez chaque nœud enfant individuellement. Vous pouvez adresser les nœuds à l'aide de la #N notation (en commençant par 0). Par exemple, pour accéder aux détails du deuxième nœud d'une tâche, décrivez aws_batch_job_id#1 en utilisant l' AWS Batch DescribeJobsAPIopération. Les informations started, stoppedAt, statusReason et exit concernant une tâche en parallèle à plusieurs nœuds sont renseignées à partir du nœud principal.

Si vous spécifiez des nouvelles tentatives de travail, une défaillance du nœud principal entraîne une nouvelle tentative. Les défaillances du nœud enfant n'entraînent pas d'autres tentatives. Chaque nouvelle tentative d'une tâche parallèle à plusieurs nœuds met à jour la tentative correspondante de ses nœuds enfants associés.

Pour exécuter des tâches parallèles sur plusieurs nœuds AWS Batch, le code de votre application doit contenir les frameworks et les bibliothèques nécessaires à la communication distribuée.