parallel Jobs mit mehreren Knoten - AWS Batch

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

parallel Jobs mit mehreren Knoten

Sie können parallel Jobs mit mehreren Knoten verwenden, um einzelne Jobs auszuführen, die sich über mehrere EC2 Amazon-Instances erstrecken. Mit parallel Aufträgen mit AWS Batch mehreren Knoten (auch bekannt als Gruppenplanung) können Sie umfangreiche Hochleistungsrechneranwendungen und verteiltes GPU Modelltraining ausführen, ohne EC2 Amazon-Ressourcen direkt starten, konfigurieren und verwalten zu müssen. Ein parallel Job mit AWS Batch mehreren Knoten ist mit jedem Framework kompatibel, das IP-basierte Internode-Kommunikation unterstützt. Beispiele hierfür sind Apache MXNet TensorFlow, Caffe2 oder Message Passing Interface (). MPI

Parallele Aufträge mit mehreren Knoten werden als ein einzelner Auftrag übermittelt. Ihre Auftragsdefinition (oder Überschreibungen durch den Auftragsübergabeknoten) legt jedoch die Anzahl der Knoten fest, die für den Auftrag erstellt werden müssen, und welche Knotengruppen erstellt werden müssen. Jeder parallele Auftrag mit mehreren Knoten enthält einen Hauptknoten, der zuerst gestartet wird. Sobald der Hauptknoten aktiv ist, werden die untergeordneten Knoten gestartet. Der Job ist nur abgeschlossen, wenn der Hauptknoten beendet wird. Alle untergeordneten Knoten werden dann gestoppt. Weitere Informationen finden Sie unter Knotengruppen.

parallel Jobknoten mit mehreren Knoten sind Single-Tenants. Das bedeutet, dass auf jeder EC2 Amazon-Instance nur ein einziger Job-Container ausgeführt wird.

Der letzte Auftragsstatus (SUCCEEDED oder FAILED) wird durch den letzten Auftragsstatus des Hauptknotens bestimmt. Um den Status eines parallel Jobs mit mehreren Knoten abzurufen, beschreiben Sie den Job anhand der Job-ID, die beim Absenden des Jobs zurückgegeben wurde. Wenn Sie die Details für untergeordnete Knoten benötigen, beschreiben Sie jeden untergeordneten Knoten einzeln. Sie können Knoten anhand der #N Notation adressieren (beginnend mit 0). Um beispielsweise auf die Details des zweiten Knotens eines Jobs zuzugreifen, beschreiben Sie aws_batch_job_id #1 mithilfe der AWS Batch DescribeJobsAPIOperation. Die Informationen started, stoppedAt, statusReason und exit für einen parallelen Auftrag mit mehreren Knoten stammen aus dem Hauptknoten.

Wenn Sie Auftragswiederholungen angeben, führt ein Ausfall des Hauptknotens zu einem erneuten Versuch. Ausfälle von untergeordneten Knoten führen nicht zu weiteren Versuchen. Jeder neue Versuch eines parallelen Auftrags mit mehreren Knoten aktualisiert den entsprechenden Versuch seiner zugehörigen untergeordneten Knoten.

Um parallel Jobs mit mehreren Knoten ausführen zu können AWS Batch, muss Ihr Anwendungscode die Frameworks und Bibliotheken enthalten, die für die verteilte Kommunikation erforderlich sind.