Erreurs courantes et résolution des problèmes - AWS Batch

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Erreurs courantes et résolution des problèmes

Les erreurs se produisent AWS Batch souvent au niveau de l'application ou sont causées par des configurations d'instance qui ne répondent pas aux exigences spécifiques de votre tâche. Parmi les autres problèmes, citons le blocage des tâches dans le RUNNABLE statut ou le blocage des environnements informatiques dans un INVALID état. Pour plus d'informations sur la résolution des problèmes liés au blocage RUNNABLE des tâches, consultezOffres d'emploi bloquées dans un RUNNABLE statut. Pour plus d'informations sur le dépannage des environnements informatiques dans un INVALID état, consultezINVALIDenvironnement informatique.

  • Vérifiez les CPU quotas Amazon EC2 Spot v : vérifiez que vos quotas de service actuels répondent aux exigences du poste. Supposons, par exemple, que votre quota de service actuel soit de 256 vCPUs et que la tâche en nécessite 10 000vCPUs. Dans ce cas, le quota de service ne répond pas aux exigences du poste. Pour plus d'informations et des instructions de dépannage, consultez les EC2sections Quotas de service Amazon et Comment augmenter le quota de service de mon Amazon EC2resources ? .

  • Les tâches échouent avant l'exécution de l'application : certaines tâches peuvent échouer en raison d'une DockerTimeoutError erreur ou d'une CannotPullContainerError erreur. Pour plus d'informations sur le dépannage, voir Comment résoudre l'erreur DockerTimeoutError « » dans AWS Batch ? .

  • Nombre d'adresses IP insuffisant : le nombre d'adresses IP dans vos sous-réseaux VPC et sous-réseaux peut limiter le nombre d'instances que vous pouvez créer. Utilisez Classless Inter-Domain Routings (CIDRs) pour fournir plus d'adresses IP que ce qui est nécessaire pour exécuter vos charges de travail. Si nécessaire, vous pouvez également créer un espace d'adressage dédié VPC avec un grand espace d'adressage. Par exemple, vous pouvez créer un réseau VPC avec plusieurs CIDRs entrées 10.x.0.0/16 et un sous-réseau dans chaque zone de disponibilité avec un CIDR de10.x.y.0/17. Dans cet exemple, x est compris entre 1 et 4 et y est égal à 0 ou 128. Cette configuration fournit 36 000 adresses IP dans chaque sous-réseau.

    VPC diagram showing 6 private subnets with different CIDR ranges across 3 Availability Zones.
  • Vérifiez que les instances sont enregistrées auprès d'Amazon EC2 — Si vous voyez vos instances dans la EC2 console Amazon, mais aucune instance de conteneur Amazon Elastic Container Service dans votre ECS cluster Amazon, l'ECSagent Amazon n'est peut-être pas installé sur une Amazon Machine Image (AMI). Il se peut également que l'ECSagent AmazonAMI, les EC2 données Amazon qu'il contient ou le modèle de lancement ne soient pas correctement configurés. Pour isoler la cause première, créez une EC2 instance Amazon distincte ou connectez-vous à une instance existante à l'aide deSSH. Pour plus d'informations, consultez les sections Configuration de l'agent de ECS conteneur Amazon, Amazon ECS Log File Emplacements etRessource de calcul AMIs.

  • Passez en revue le AWS tableau de AWS bord : examinez le tableau de bord pour vérifier que la tâche attendue se présente et que l'environnement de calcul évolue comme prévu. Vous pouvez également consulter les connexions aux tâches CloudWatch.

  • Vérifiez que votre instance est créée : si une instance est créée, cela signifie que votre environnement informatique a été dimensionné comme prévu. Si vos instances ne sont pas créées, recherchez les sous-réseaux associés à modifier dans votre environnement informatique. Pour plus d'informations, consultez Vérifier une activité de dimensionnement pour un groupe Auto Scaling.

    Nous vous recommandons également de vérifier que vos instances répondent aux exigences professionnelles associées. Par exemple, une tâche peut nécessiter 1 TiB de mémoire, mais l'environnement de calcul utilise un type d'instance C5 limité à 192 Go de mémoire.

  • Vérifiez que vos instances sont demandées par AWS Batch — Consultez l'historique du groupe Auto Scaling pour vérifier que vos instances sont demandées par AWS Batch. Cela indique comment Amazon EC2 essaie d'acquérir des instances. Si vous recevez un message d'erreur indiquant qu'Amazon EC2 Spot ne peut pas acquérir une instance dans une zone de disponibilité spécifique, cela peut être dû au fait que la zone de disponibilité ne propose pas de famille d'instances spécifique.

  • Vérifiez que les instances sont enregistrées auprès d'Amazon ECS — Si vous voyez des instances dans la EC2 console Amazon, mais aucune instance de ECS conteneur Amazon dans votre ECS cluster Amazon, l'ECSagent Amazon n'est peut-être pas installé sur l'Amazon Machine Image (AMI). De plus, il est possible que l'ECSagent Amazon, EC2 les données Amazon qu'AMIil contient ou le modèle de lancement ne soient pas correctement configurés. Pour isoler la cause première, créez une EC2 instance Amazon distincte ou connectez-vous à une instance existante à l'aide deSSH. Pour plus d'informations, consultez le fichier de configuration de l'CloudWatch agent : section Logs, Amazon ECS Log File Emplacements etRessource de calcul AMIs.

  • Ouvrez un ticket d'assistance : si vous rencontrez toujours des problèmes après un dépannage et que vous disposez d'un plan d'assistance, ouvrez un ticket d'assistance. Dans le ticket d'assistance, assurez-vous d'inclure des informations sur le problème, les spécificités de la charge de travail, la configuration et les résultats des tests. Pour plus d'informations, voir Comparer les AWS Support forfaits.

  • Consultez les HPC forums AWS Batch et — Pour plus d'informations, consultez les HPCforums AWS Batchet.

  • Consultez le tableau de bord de surveillance du temps AWS Batch d'exécution : ce tableau de bord utilise une architecture sans serveur pour capturer les événements d'Amazon ECS AWS Batch, et Amazon EC2 afin de fournir des informations sur les tâches et les instances. Pour plus d'informations, consultez la section Solution de tableaux de bord de surveillance des temps d'AWS Batch exécution.