Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Installation des dépendances Python
Une dépendance Python est un package ou une distribution qui n'est pas inclus dans l'installation de base d'Apache Airflow pour votre version d'Apache Airflow sur votre environnement Amazon Managed Workflows for Apache Airflow. Cette rubrique décrit les étapes à suivre pour installer les dépendances Python d'Apache Airflow dans votre MWAA environnement Amazon à l'aide d'un requirements.txt
fichier de votre compartiment Amazon S3.
Table des matières
Prérequis
Vous aurez besoin des éléments suivants avant de pouvoir effectuer les étapes indiquées sur cette page.
-
Autorisations — Votre AWS compte doit avoir été autorisé par votre administrateur à accéder à la politique de contrôle d'mazonMWAAFullConsoleAccessaccès A pour votre environnement. En outre, votre MWAA environnement Amazon doit être autorisé par votre rôle d'exécution à accéder aux AWS ressources utilisées par votre environnement.
-
Accès : si vous devez accéder à des référentiels publics pour installer des dépendances directement sur le serveur Web, votre environnement doit être configuré avec un accès au serveur Web du réseau public. Pour de plus amples informations, veuillez consulter Modes d'accès à Apache Airflow.
-
Configuration Amazon S3 — Le compartiment Amazon S3 utilisé pour stocker vos DAGs plugins personnalisés et vos dépendances Python
requirements.txt
doit être configuré avec l'accès public bloqué et le versionnage activé.plugins.zip
Comment ça marche
Sur AmazonMWAA, vous installez toutes les dépendances Python en téléchargeant un requirements.txt
fichier dans votre compartiment Amazon S3, puis en spécifiant la version du fichier sur la MWAA console Amazon à chaque mise à jour du fichier. Amazon MWAA s'exécute pip3 install -r requirements.txt
pour installer les dépendances Python sur le planificateur Apache Airflow et sur chacun des travailleurs.
Pour exécuter des dépendances Python dans votre environnement, vous devez effectuer trois opérations :
-
Créez un
requirements.txt
fichier localement. -
Téléchargez le fichier local
requirements.txt
dans votre compartiment Amazon S3. -
Spécifiez la version de ce fichier dans le champ Fichier d'exigences de la MWAA console Amazon.
Note
Si c'est la première fois que vous créez et chargez un requirements.txt
fichier dans votre compartiment Amazon S3, vous devez également spécifier le chemin d'accès au fichier sur la MWAA console Amazon. Vous ne devez effectuer cette étape qu'une seule fois.
Vue d'ensemble des dépendances Python
Vous pouvez installer des suppléments Apache Airflow et d'autres dépendances Python à partir du Python Package Index (PyPi.org), des roues Python (.whl
) ou des dépendances Python hébergées sur un dépôt privé conforme à PyPi/PEP-503 de votre environnement.
Emplacement et limites de taille des dépendances Python
Le planificateur Apache Airflow et les Workers recherchent les packages dans le requirements.txt
fichier et les packages sont installés dans l'environnement à l'adresse. /usr/local/airflow/.local/bin
-
Limite de taille. Nous recommandons un
requirements.txt
fichier qui fait référence à des bibliothèques dont la taille combinée est inférieure à 1 Go. Plus Amazon MWAA doit installer de bibliothèques, plus le temps de démarrage d'un environnement est long. Bien qu'Amazon MWAA ne limite pas explicitement la taille des bibliothèques installées, si les dépendances ne peuvent pas être installées dans les dix minutes, le service Fargate expirera et tentera de rétablir la stabilité de l'environnement.
Création d'un fichier requirements.txt
Les étapes suivantes décrivent les étapes que nous recommandons pour créer un fichier requirements.txt localement.
Étape 1 : tester les dépendances Python à l'aide de l'MWAACLIutilitaire Amazon
-
L'utilitaire d'interface de ligne de commande (CLI) reproduit localement un environnement Amazon Managed Workflows pour Apache Airflow.
-
CLIcrée localement une image de conteneur Docker similaire à une image de MWAA production Amazon. Cela vous permet d'exécuter un environnement Apache Airflow local pour développer et tester DAGs des plugins personnalisés et des dépendances avant le déploiement sur AmazonMWAA.
-
Pour exécuter leCLI, reportez-vous à la section aws-mwaa-local-runner
Activé GitHub.
Deuxième étape : créer le requirements.txt
La section suivante décrit comment spécifier les dépendances Python à partir de l'index des packages Pythonrequirements.txt
fichier.
Téléchargement requirements.txt
vers Amazon S3
Vous pouvez utiliser la console Amazon S3 ou le AWS Command Line Interface (AWS CLI) pour charger un requirements.txt
fichier dans votre compartiment Amazon S3.
À l'aide du AWS CLI
The AWS Command Line Interface (AWS CLI) est un outil open source qui vous permet d'interagir avec les AWS services à l'aide de commandes dans votre shell de ligne de commande. Pour effectuer les étapes indiquées sur cette page, vous avez besoin des éléments suivants :
Pour effectuer un téléchargement à l'aide du AWS CLI
-
Utilisez la commande suivante pour répertorier tous vos compartiments Amazon S3.
aws s3 ls
-
Utilisez la commande suivante pour répertorier les fichiers et les dossiers du compartiment Amazon S3 de votre environnement.
aws s3 ls s3://
YOUR_S3_BUCKET_NAME
-
La commande suivante télécharge un
requirements.txt
fichier dans un compartiment Amazon S3.aws s3 cp requirements.txt s3://
YOUR_S3_BUCKET_NAME
/requirements.txt
Utilisation de la console Amazon S3
La console Amazon S3 est une interface utilisateur Web qui vous permet de créer et de gérer les ressources de votre compartiment Amazon S3.
Pour charger à l'aide de la console Amazon S3
-
Ouvrez la page Environnements
sur la MWAA console Amazon. -
Choisissez un environnement.
-
Sélectionnez le lien du compartiment S3 dans le DAGcode du volet S3 pour ouvrir votre compartiment de stockage sur la console Amazon S3.
-
Sélectionnez Charger.
-
Choisissez Ajouter un fichier.
-
Sélectionnez la copie locale de votre fichier
requirements.txt
, puis choisissez Upload.
Installation de dépendances Python dans votre environnement
Cette section décrit comment installer les dépendances que vous avez téléchargées dans votre compartiment Amazon S3 en spécifiant le chemin d'accès au fichier requirements.txt et en spécifiant la version du fichier requirements.txt à chaque mise à jour.
Spécifier le chemin d'accès requirements.txt
sur la MWAA console Amazon (pour la première fois)
Si c'est la première fois que vous créez et chargez un requirements.txt
fichier dans votre compartiment Amazon S3, vous devez également spécifier le chemin d'accès au fichier sur la MWAA console Amazon. Vous ne devez effectuer cette étape qu'une seule fois.
-
Ouvrez la page Environnements
sur la MWAA console Amazon. -
Choisissez un environnement.
-
Choisissez Modifier.
-
Dans le DAG code du volet Amazon S3, choisissez Browse S3 à côté du champ « Fichier d'exigences » (facultatif).
-
Sélectionnez le
requirements.txt
fichier dans votre compartiment Amazon S3. -
Choisissez Choisir.
-
Choisissez Suivant, Mettre à jour l'environnement.
Vous pouvez commencer à utiliser les nouveaux packages immédiatement après la fin de la mise à jour de votre environnement.
Spécification de la requirements.txt
version sur la MWAA console Amazon
Vous devez spécifier la version de votre requirements.txt
fichier sur la MWAA console Amazon chaque fois que vous chargez une nouvelle version de votre fichier requirements.txt
dans votre compartiment Amazon S3.
-
Ouvrez la page Environnements
sur la MWAA console Amazon. -
Choisissez un environnement.
-
Choisissez Modifier.
-
Dans le DAG code du volet Amazon S3, choisissez une
requirements.txt
version dans la liste déroulante. -
Choisissez Suivant, Mettre à jour l'environnement.
Vous pouvez commencer à utiliser les nouveaux packages immédiatement après la fin de la mise à jour de votre environnement.
Afficher les journaux de votre requirements.txt
Vous pouvez consulter les journaux Apache Airflow pour le planificateur qui planifie vos flux de travail et analyse votre dossier. dags
Les étapes suivantes décrivent comment ouvrir le groupe de journaux pour le planificateur sur la MWAA console Amazon et afficher les journaux Apache Airflow sur la CloudWatch console Logs.
Pour consulter les journaux d'un requirements.txt
-
Ouvrez la page Environnements
sur la MWAA console Amazon. -
Choisissez un environnement.
-
Choisissez le groupe de journaux du planificateur Airflow dans le volet de surveillance.
-
Choisissez le
requirements_install_ip
log in Log streams. -
Vous devriez voir la liste des packages installés sur l'environnement à l'adresse
/usr/local/airflow/.local/bin
. Par exemple :Collecting appdirs==1.4.4 (from -r /usr/local/airflow/.local/bin (line 1)) Downloading https://files.pythonhosted.org/packages/3b/00/2344469e2084fb28kjdsfiuyweb47389789vxbmnbjhsdgf5463acd6cf5e3db69324/appdirs-1.4.4-py2.py3-none-any.whl Collecting astroid==2.4.2 (from -r /usr/local/airflow/.local/bin (line 2))
-
Consultez la liste des packages et vérifiez si l'un d'entre eux a rencontré une erreur lors de l'installation. En cas de problème, un message d'erreur similaire au suivant peut s'afficher :
2021-03-05T14:34:42.731-07:00 No matching distribution found for LibraryName==1.0.0 (from -r /usr/local/airflow/.local/bin (line 4)) No matching distribution found for LibraryName==1.0.0 (from -r /usr/local/airflow/.local/bin (line 4))
Quelle est la prochaine étape ?
-
Testez vos DAGs plugins personnalisés et vos dépendances Python localement à l'aide de l'option aws-mwaa-local-runner
on GitHub.