Konfiguration der MWAA Amazon-Umgebungsklasse - Amazon Managed Workflows für Apache Airflow

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Konfiguration der MWAA Amazon-Umgebungsklasse

Die Umgebungsklasse, die Sie für Ihre MWAA Amazon-Umgebung wählen, bestimmt die Größe der AWS-verwalteten AWS Fargate Container, in denen der Celery Executor ausgeführt wird, und der AWS-verwalteten Amazon Aurora SQL Postgre-Metadatendatenbank, in der die Apache Airflow-Scheduler Task-Instances erstellen. Auf dieser Seite werden die einzelnen MWAA Amazon-Umgebungsklassen und die Schritte zur Aktualisierung der Umgebungsklasse auf der MWAA Amazon-Konsole beschrieben.

Funktionen der Umgebung

Der folgende Abschnitt enthält die standardmäßigen gleichzeitigen Apache Airflow-Aufgaben, Random Access Memory (RAM) und die virtuellen zentralen Verarbeitungseinheiten (vCPUs) für jede Umgebungsklasse. Bei den aufgeführten gleichzeitigen Aufgaben wird davon ausgegangen, dass die Parallelität der Aufgaben die Apache Airflow Worker-Kapazität in der Umgebung nicht überschreitet.

In der folgenden Tabelle bezieht sich DAG Kapazität auf DAG Definitionen, nicht auf Ausführungen, und es wird davon ausgegangen, dass Sie dynamisch in einer einzigen Python-Datei DAGs sind und mit den Best Practices von Apache Airflow geschrieben wurden.

Die Ausführung von Aufgaben hängt davon ab, wie viele gleichzeitig geplant sind. Dabei wird vorausgesetzt, dass die Anzahl der DAG Durchläufe, die zur gleichen Zeit gestartet werden sollen, nicht die Standardwerte überschreitet max_dagruns_per_loop_to_schedule, ebenso wie die Größe und Anzahl der Worker, wie in diesem Thema beschrieben.

mw1.small
  • Kapazität von bis zu 50 DAG

  • 5 gleichzeitige Aufgaben (standardmäßig)

  • Komponenten:

    • Webserver: 1 VCPU, jeweils 2 GB RAM

    • Mitarbeiter: jeweils 1 VCPU, 2 GB RAM

    • Scheduler: jeweils 1 VCPU, 2 GB RAM

    • Datenbank: 2 VCPU, 4 GB RAM

mw1.medium
  • Kapazität von bis zu 250 DAG

  • 10 gleichzeitige Aufgaben (standardmäßig)

  • Komponenten:

    • Webserver: jeweils 1 v CPU 2 GB RAM

    • Mitarbeiter: jeweils 2 gegen 4 CPU GB RAM

    • Scheduler: jeweils 2 gegen 4 GB CPU RAM

    • Datenbank: 2 v 8 GB CPU RAM

mw1.large
  • Kapazität bis zu 1000 DAG

  • 20 gleichzeitige Aufgaben (standardmäßig)

  • Komponenten:

    • Webserver: jeweils 2 v CPU 4 GB RAM

    • Mitarbeiter: jeweils 4 gegen CPU 8 GB RAM

    • Scheduler: jeweils 4 gegen 8 GB CPU RAM

    • Datenbank: 2 v 8 GB CPU RAM

mw1.xlarge
  • Kapazität von bis zu 2000 DAG

  • 40 gleichzeitige Aufgaben (standardmäßig)

  • Komponenten:

    • Webserver: jeweils 4 v CPU 12 GB RAM

    • Mitarbeiter: jeweils 8 bis CPU 24 GB RAM

    • Scheduler: jeweils 8 bis 24 GB CPU RAM

    • Datenbank: 4 v 32 GB CPU RAM

mw1.2xlarge
  • Bis zu 4000 Kapazität DAG

  • 80 gleichzeitige Aufgaben (standardmäßig)

  • Komponenten:

    • Webserver: jeweils 8 v 24 GB CPU RAM

    • Mitarbeiter: jeweils 16 V CPU 48 GB RAM

    • Scheduler: jeweils 16 v 48 GB CPU RAM

    • Datenbank: 8 v 64 GB CPU RAM

Sie können es verwendencelery.worker_autoscale, um die Anzahl der Aufgaben pro Mitarbeiter zu erhöhen. Weitere Informationen hierzu finden Sie unter Beispiel für einen Hochleistungs-Anwendungsfall.

Apache Airflow Scheduler

Der folgende Abschnitt enthält die auf Amazon MWAA verfügbaren Apache Airflow-Scheduler-Optionen und wie sich die Anzahl der Scheduler auf die Anzahl der Trigger auswirkt.

In Apache Airflow verwaltet ein Trigger Aufgaben, die er aufschiebt, bis bestimmte, mithilfe eines Triggers festgelegte Bedingungen erfüllt sind. In Amazon läuft MWAA der Triggerer zusammen mit dem Scheduler auf derselben Fargate-Aufgabe. Wenn Sie die Anzahl der Scheduler erhöhen, wird die Anzahl der verfügbaren Trigger entsprechend erhöht, wodurch die Art und Weise optimiert wird, wie die Umgebung verzögerte Aufgaben verwaltet. Dadurch wird eine effiziente Bearbeitung von Aufgaben gewährleistet und sie werden umgehend so geplant, dass sie ausgeführt werden, wenn die Bedingungen erfüllt sind.

Apache Airflow v2
  • v2 — Akzeptiert zwischen 2 bis5. Standardeinstellung: 2.