Configuration de la classe d'MWAAenvironnement Amazon - Amazon Managed Workflows for Apache Airflow

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Configuration de la classe d'MWAAenvironnement Amazon

La classe d'environnement que vous choisissez pour votre MWAA environnement Amazon détermine la taille des AWS Fargate conteneurs AWS gérés dans lesquels le Celery Executor s'exécute, ainsi que la base de données de SQL métadonnées Amazon AWS Aurora Postgre gérée dans laquelle les planificateurs Apache Airflow créent des instances de tâches. Cette page décrit chaque classe d'MWAAenvironnement Amazon et les étapes à suivre pour mettre à jour la classe d'environnement sur la MWAA console Amazon.

Capacités environnementales

La section suivante contient les tâches Apache Airflow simultanées par défaut, la mémoire à accès aléatoire (RAM) et les unités de traitement centralisées virtuelles (vCPUs) pour chaque classe d'environnement. Les tâches simultanées répertoriées supposent que la simultanéité des tâches ne dépasse pas la capacité d'Apache Airflow Worker dans l'environnement.

Dans le tableau suivant, la DAG capacité fait référence aux DAG définitions, et non aux exécutions, et suppose que vous DAGs êtes dynamique dans un seul fichier Python écrit selon les meilleures pratiques d'Apache Airflow.

Les exécutions de tâches dépendent du nombre de tâches planifiées simultanément et supposent que le nombre d'DAGexécutions définies pour démarrer en même temps ne dépasse pas le nombre par défaut max_dagruns_per_loop_to_schedule, ainsi que de la taille et du nombre de travailleurs, comme indiqué dans cette rubrique.

mw1.small
  • Jusqu'à 50 DAG capacités

  • 5 tâches simultanées (par défaut)

  • Composants :

    • Serveurs Web : 1 VCPU, 2 Go chacun RAM

    • Travailleurs : 1 vCPU, 2 Go chacun RAM

    • Planificateurs : 1 VCPU, 2 Go chacun RAM

    • Base de données : 2 VCPU, 4 Go RAM

mw1.medium
  • DAGCapacité maximale de 250

  • 10 tâches simultanées (par défaut)

  • Composants :

    • Serveurs Web : 1 v CPU 2 Go chacun RAM

    • Travailleurs : 2 contre CPU 4 Go chacun RAM

    • Planificateurs : 2 ou CPU 4 Go chacun RAM

    • Base de données : 2 v CPU 8 Go RAM

mw1.large
  • Jusqu'à 1 000 DAG capacités

  • 20 tâches simultanées (par défaut)

  • Composants :

    • Serveurs Web : 2 à CPU 4 Go chacun RAM

    • Travailleurs : 4 contre CPU 8 Go chacun RAM

    • Planificateurs : 4 contre CPU 8 Go chacun RAM

    • Base de données : 2 v CPU 8 Go RAM

mw1.xlarge
  • Jusqu'à 2 000 DAG capacités

  • 40 tâches simultanées (par défaut)

  • Composants :

    • Serveurs Web : 4 x CPU 12 Go chacun RAM

    • Travailleurs : 8 contre CPU 24 Go chacun RAM

    • Planificateurs : 8 x CPU 24 Go chacun RAM

    • Base de données : 4 v CPU 32 Go RAM

mw1.2xlarge
  • Jusqu'à 4 000 DAG capacités

  • 80 tâches simultanées (par défaut)

  • Composants :

    • Serveurs Web : 8 v CPU 24 Go chacun RAM

    • Travailleurs : 16 contre CPU 48 Go chacun RAM

    • Planificateurs : 16 x CPU 48 Go chacun RAM

    • Base de données : 8 v CPU 64 Go RAM

Vous pouvez l'utiliser celery.worker_autoscale pour augmenter le nombre de tâches par travailleur. Pour plus d’informations, consultez le Exemple de cas d'utilisation à hautes performances.

Planificateurs Apache Airflow

La section suivante décrit les options du planificateur Apache Airflow disponibles sur Amazon MWAA et explique comment le nombre de planificateurs affecte le nombre de déclencheurs.

Dans Apache Airflow, un déclencheur gère les tâches qu'il reporte jusqu'à ce que certaines conditions spécifiées à l'aide d'un déclencheur soient remplies. Dans Amazon, MWAA le déclencheur s'exécute parallèlement au planificateur sur la même tâche Fargate. L'augmentation du nombre de planificateurs augmente en conséquence le nombre de déclencheurs disponibles, optimisant ainsi la façon dont l'environnement gère les tâches différées. Cela garantit une gestion efficace des tâches, en les planifiant rapidement pour qu'elles s'exécutent lorsque les conditions sont satisfaites.

Apache Airflow v2
  • v2 - Accepte les valeurs comprises entre et 25. La valeur par défaut est 2.