Qu'est-ce qu'Amazon Managed Workflows pour Apache Airflow ? - Amazon Managed Workflows for Apache Airflow

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Qu'est-ce qu'Amazon Managed Workflows pour Apache Airflow ?

Amazon Managed Workflows for Apache Airflow est un service d'orchestration géré pour Apache Airflow que vous pouvez utiliser pour configurer et exploiter des pipelines de données dans le cloud à grande échelle. Apache Airflow est un outil open source utilisé pour créer, planifier et surveiller par programmation des séquences de processus et de tâches appelées flux de travail. Avec Amazon MWAA, vous pouvez utiliser Apache Airflow et Python pour créer des flux de travail sans avoir à gérer l'infrastructure sous-jacente en termes d'évolutivité, de disponibilité et de sécurité. Amazon MWAA adapte automatiquement sa capacité d'exécution de flux de travail en fonction de vos besoins. Amazon MWAA s'intègre aux services de AWS sécurité pour vous fournir un accès rapide et sécurisé à vos données.

Fonctionnalités

  • Configuration automatique du flux d'air : configurez rapidement Apache Airflow en choisissant une version d'Apache Airflow lorsque vous créez un environnement Amazon MWAA. Amazon MWAA configure Apache Airflow pour vous en utilisant la même interface utilisateur Apache Airflow et le même code open source que vous pouvez télécharger sur Internet.

  • Mise à l'échelle automatique : dimensionnez automatiquement les travailleurs Apache Airflow en définissant le nombre minimum et maximum de travailleurs exécutés dans votre environnement. Amazon MWAA surveille les travailleurs de votre environnement et utilise son composant de mise à l'échelle automatique pour ajouter des travailleurs afin de répondre à la demande, jusqu'à ce que le nombre maximum de travailleurs que vous avez défini soit atteint.

  • Authentification intégrée : activez l'authentification et l'autorisation basées sur les rôles pour votre serveur Web Apache Airflow en définissant les politiques de contrôle d'accès dans AWS Identity and Access Management (IAM). Les Apache Airflow Workers adoptent ces politiques pour un accès sécurisé aux AWS services.

  • Sécurité intégrée : les serveurs et les planificateurs Apache Airflow s'exécutent dans Amazon VPC d'Amazon MWAA. Les données sont également automatiquement cryptées à l'aide de ce logiciel AWS Key Management Service, de sorte que votre environnement est sécurisé par défaut.

  • Modes d'accès public ou privé : accédez à votre serveur Web Apache Airflow en utilisant un mode d'accès privé ou public. Le mode d'accès au réseau public utilise un point de terminaison VPC pour votre serveur Web Apache Airflow accessible via Internet. Le mode d'accès au réseau privé utilise un point de terminaison VPC pour votre serveur Web Apache Airflow accessible depuis votre VPC. Dans les deux cas, l'accès de vos utilisateurs d'Apache Airflow est contrôlé par la politique de contrôle d'accès que vous définissez dans AWS Identity and Access Management (IAM) et AWS par le SSO.

  • Mises à niveau et correctifs simplifiés : Amazon MWAA fournit régulièrement de nouvelles versions d'Apache Airflow. L'équipe Amazon MWAA mettra à jour et corrigera les images pour ces versions.

  • Surveillance du flux de travail : consultez les journaux Apache Airflow et les métriques d'Apache Airflow sur Amazon CloudWatch pour identifier les retards ou les erreurs de flux de travail d'Apache Airflow sans avoir besoin d'outils tiers supplémentaires. Amazon MWAA envoie automatiquement les métriques de l'environnement et, si elles sont activées, Apache Airflow se connecte à. CloudWatch

  • AWS intégration — Amazon MWAA prend en charge les intégrations open source avec Amazon Athena AWS Batch, CloudWatch Amazon, Amazon DynamoDB, Amazon EMR, AWS DataSync Amazon EKS, Amazon Data Firehose AWS Fargate, Amazon AWS Lambda Redshift, Amazon SQS AWS Glue, Amazon SNS, Amazon et Amazon S3, ainsi que des centaines d'opérateurs intégrés et créés par la SageMaker communauté et capteurs.

  • Flottes de travailleurs : Amazon MWAA propose une assistance pour l'utilisation de conteneurs afin de faire évoluer le parc de travailleurs à la demande et de réduire les interruptions de service du planificateur à l'aide d'Amazon ECS on. AWS Fargate Les opérateurs qui appellent des tâches sur des conteneurs Amazon ECS et les opérateurs Kubernetes qui créent et exécutent des pods sur un cluster Kubernetes sont pris en charge.

Architecture

Tous les composants contenus dans la boîte extérieure (dans l'image ci-dessous) apparaissent sous la forme d'un seul environnement Amazon MWAA dans votre compte. L'Apache Airflow Scheduler et Workers sont AWS Fargate (Fargate) des conteneurs qui se connectent aux sous-réseaux privés de votre environnement Amazon VPC. Chaque environnement possède sa propre base de métadonnées Apache Airflow gérée par AWS laquelle les conteneurs Scheduler et Workers Fargate peuvent accéder via un point de terminaison VPC sécurisé de manière privée.

Amazon CloudWatch, Amazon S3, Amazon SQS, Amazon ECR AWS KMS sont distincts d'Amazon MWAA et doivent être accessibles depuis le ou les planificateurs Apache Airflow et les conteneurs Workers in the Fargate.

Le serveur Web Apache Airflow est accessible soit via Internet en sélectionnant le mode d'accès Apache Airflow au réseau public, soit au sein de votre VPC en sélectionnant le mode d'accès Apache Airflow au réseau privé. Dans les deux cas, l'accès de vos utilisateurs d'Apache Airflow est contrôlé par la politique de contrôle d'accès que vous définissez dans AWS Identity and Access Management (IAM).

Note

Plusieurs planificateurs Apache Airflow ne sont disponibles qu'avec Apache Airflow v2 et versions ultérieures. Pour en savoir plus sur le cycle de vie des tâches d'Apache Airflow, consultez Concepts dans le guide de référence d'Apache Airflow.

Cette image montre l'architecture d'un environnement Amazon MWAA.

Integration

La communauté open source Apache Airflow active et croissante fournit des opérateurs (plugins qui simplifient les connexions aux services) permettant à Apache Airflow de s'intégrer aux services. AWS Cela inclut des services tels qu'Amazon S3, Amazon Redshift, Amazon EMR AWS Batch et Amazon SageMaker, ainsi que des services sur d'autres plateformes cloud.

L'utilisation d'Apache Airflow avec Amazon MWAA prend entièrement en charge l'intégration avec AWS des services et des outils tiers populaires tels qu'Apache Hadoop, Presto, Hive et Spark pour effectuer des tâches de traitement des données. Amazon MWAA s'engage à maintenir la compatibilité avec l'API Amazon MWAA, et Amazon MWAA a l'intention de fournir des intégrations fiables aux AWS services, de les mettre à la disposition de la communauté et de participer au développement de fonctionnalités communautaires.

Pour un exemple de code, consultez Exemples de code pour Amazon Managed Workflows pour Apache Airflow.

Versions prises en charge

Amazon MWAA prend en charge plusieurs versions d'Apache Airflow. Pour plus d'informations sur les versions d'Apache Airflow que nous prenons en charge et sur les composants Apache Airflow inclus dans chaque version, consultez. Versions d'Apache Airflow sur Amazon Managed Workflows pour Apache Airflow

Quelle est la prochaine étape ?