Häufige Fehler und Problembehebung - AWS Batch

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Häufige Fehler und Problembehebung

Fehler treten AWS Batch häufig auf Anwendungsebene auf oder werden durch Instanzkonfigurationen verursacht, die Ihren spezifischen Jobanforderungen nicht entsprechen. Zu den weiteren Problemen gehören Jobs, die im RUNNABLE Status hängen bleiben, oder Rechenumgebungen, die in einem INVALID Status stecken bleiben. Weitere Informationen zur Fehlerbehebung bei Jobs, die im RUNNABLE Status hängen bleiben, finden Sie unterJobs, die in einem RUNNABLE Status feststecken. Informationen zur Fehlerbehebung bei Computerumgebungen in einem bestimmten INVALID Bundesstaat finden Sie unterINVALIDComputerumgebung.

  • Überprüfen Sie die CPU Kontingente von Amazon EC2 Spot — Stellen Sie sicher, dass Ihre aktuellen Servicekontingente den Jobanforderungen entsprechen. Nehmen wir zum Beispiel an, dass Ihr aktuelles Servicekontingent 256 beträgt vCPUs und für den Auftrag 10.000 erforderlich sindvCPUs. Dann entspricht das Servicekontingent nicht den Auftragsanforderungen. Weitere Informationen und Anweisungen zur Fehlerbehebung finden Sie unter EC2Amazon-Servicekontingente und Wie erhöhe ich das Servicekontingent meines AmazonEC2resources? .

  • Jobs schlagen fehl, bevor die Anwendung ausgeführt wird — Einige Jobs schlagen möglicherweise aufgrund eines DockerTimeoutError Fehlers oder eines CannotPullContainerError Fehlers fehl. Informationen zur Problembehandlung finden Sie unter Wie behebe ich den Fehler DockerTimeoutError "" in AWS Batch? .

  • Unzureichende IP-Adressen — Die Anzahl der IP-Adressen in Ihren VPC und Subnetzen kann die Anzahl der Instanzen einschränken, die Sie erstellen können. Verwenden Sie Classless Inter-Domain Routings (CIDRs), um mehr IP-Adressen bereitzustellen, als für die Ausführung Ihrer Workloads erforderlich sind. Bei Bedarf können Sie auch ein dediziertes System VPC mit einem großen Adressraum erstellen. Sie können beispielsweise ein VPC mit mehreren Eingängen 10.x.0.0/16 und ein Subnetz CIDRs in jeder Availability Zone mit einem CIDR of 10.x.y.0/17 erstellen. In diesem Beispiel liegt x zwischen 1 und 4 und y ist entweder 0 oder 128. Diese Konfiguration bietet 36.000 IP-Adressen in jedem Subnetz.

    VPC diagram showing 6 private subnets with different CIDR ranges across 3 Availability Zones.
  • Stellen Sie sicher, dass Instances bei Amazon registriert sind EC2 — Wenn Sie Ihre Instances in der EC2 Amazon-Konsole sehen, aber keine Amazon Elastic Container Service-Container-Instances in Ihrem ECS Amazon-Cluster, ist der ECS Amazon-Agent möglicherweise nicht auf einem Amazon Machine Image installiert (AMI). Der ECS Amazon-Agent, die EC2 Amazon-Daten in Ihrer AMI Vorlage oder die Startvorlage sind möglicherweise ebenfalls nicht richtig konfiguriert. Um die Ursache zu isolieren, erstellen Sie eine separate EC2 Amazon-Instance oder stellen Sie mithilfe von eine Verbindung zu einer vorhandenen Instance herSSH. Weitere Informationen finden Sie unter Konfiguration des ECS Amazon-Container-Agenten, Speicherorte der ECS Amazon-Protokolldateien undRessource berechnen AMIs.

  • Überprüfen Sie das AWS Dashboard — Überprüfen Sie das AWS Dashboard, um zu überprüfen, ob der erwartete Auftragsstatus vorliegt und ob die Rechenumgebung erwartungsgemäß skaliert wird. Sie können auch die Job-Logs überprüfen CloudWatch.

  • Stellen Sie sicher, dass Ihre Instanz erstellt wurde — Wenn eine Instanz erstellt wurde, bedeutet dies, dass Ihre Computerumgebung wie erwartet skaliert wurde. Wenn Ihre Instanzen nicht erstellt wurden, suchen Sie nach den zugehörigen Subnetzen in Ihrer Computerumgebung, die Sie ändern möchten. Weitere Informationen finden Sie unter Überprüfen einer Skalierungsaktivität für eine Auto Scaling Scaling-Gruppe.

    Wir empfehlen Ihnen außerdem, zu überprüfen, ob Ihre Instances Ihre entsprechenden Jobanforderungen erfüllen können. Beispielsweise kann ein Job 1 TiB Arbeitsspeicher benötigen, aber die Rechenumgebung verwendet einen C5-Instance-Typ, der auf 192 GB Speicher begrenzt ist.

  • Stellen Sie sicher, dass Ihre Instances angefordert werden von AWS Batch — Überprüfen Sie den Auto Scaling Scaling-Gruppenverlauf, um zu überprüfen, ob Ihre Instances von angefordert wurden AWS Batch. Dies ist ein Hinweis darauf, wie Amazon EC2 versucht, Instances zu erwerben. Wenn Sie eine Fehlermeldung erhalten, dass Amazon EC2 Spot keine Instance in einer bestimmten Availability Zone erwerben kann, liegt das möglicherweise daran, dass die Availability Zone keine bestimmte Instance-Familie anbietet.

  • Stellen Sie sicher, dass Instances bei Amazon registriert sind ECS — Wenn Sie Instances in der EC2 Amazon-Konsole sehen, aber keine ECS Amazon-Container-Instances in Ihrem ECS Amazon-Cluster, ist der ECS Amazon-Agent möglicherweise nicht auf dem Amazon Machine Image installiert (AMI). Darüber hinaus sind der ECS Amazon-Agent, die EC2 Amazon-Daten in Ihrer AMI Vorlage oder die Startvorlage möglicherweise nicht richtig konfiguriert. Um die Ursache zu isolieren, erstellen Sie eine separate EC2 Amazon-Instance oder stellen Sie mithilfe von eine Verbindung zu einer vorhandenen Instance herSSH. Weitere Informationen finden Sie in der CloudWatch Agenten-Konfigurationsdatei: Abschnitt Protokolle, Speicherorte der ECS Amazon-Protokolldateien undRessource berechnen AMIs.

  • Öffnen Sie ein Support-Ticket — Wenn Sie nach der Fehlerbehebung immer noch Probleme haben und über einen Supportplan verfügen, öffnen Sie ein Support-Ticket. Stellen Sie sicher, dass das Support-Ticket Informationen zum Problem, zu den Besonderheiten der Arbeitslast, zur Konfiguration und zu den Testergebnissen enthält. Weitere Informationen finden Sie unter AWS Support Tarife vergleichen.

  • Weitere Informationen finden Sie HPC in den Foren AWS Batch und. Weitere Informationen finden Sie in den HPCForen AWS Batchund.

  • Sehen Sie sich das AWS Batch Runtime Monitoring Dashboard an — Dieses Dashboard verwendet eine serverlose Architektur zur Erfassung von Ereignissen von Amazon und Amazon ECS AWS Batch, EC2 um Einblicke in Jobs und Instances zu erhalten. Weitere Informationen finden Sie unter AWS Batch Runtime Monitoring Dashboards Solution.