Plans et flux de travail dans Lake Formation - AWS Lake Formation

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Plans et flux de travail dans Lake Formation

Un flux de travail encapsule une activité complexe d'extraction, de transformation et de chargement (ETL) comportant plusieurs tâches. Les flux de travail génèrent des AWS Glue robots, des tâches et des déclencheurs pour orchestrer le chargement et la mise à jour des données. Lake Formation exécute et suit un flux de travail en tant qu'entité unique. Vous pouvez configurer un flux de travail pour qu'il s'exécute à la demande ou selon un calendrier.

Les flux de travail que vous créez dans Lake Formation sont visibles dans le AWS Glue console sous la forme d'un graphe acyclique dirigé (DAG). Chaque DAG nœud est une tâche, un robot d'exploration ou un déclencheur. Pour suivre les progrès et résoudre les problèmes, vous pouvez suivre l'état de chaque nœud du flux de travail.

Lorsqu'un flux de travail Lake Formation est terminé, l'utilisateur qui a exécuté le flux de travail reçoit l'SELECTautorisation Lake Formation sur les tables du catalogue de données créées par le flux de travail.

Vous pouvez également créer des flux de travail dans AWS Glue. Cependant, dans la mesure où Lake Formation vous permet de créer un flux de travail à partir d'un plan, la création de flux de travail est beaucoup plus simple et automatisée dans Lake Formation. Lake Formation fournit les types de plans suivants :

  • Instantané de base de données : charge ou recharge les données de toutes les tables dans le lac de données à partir d'une JDBC source. Vous pouvez exclure certaines données de la source selon un modèle d'exclusion.

  • Base de données incrémentielle : charge uniquement les nouvelles données dans le lac de données à partir d'une JDBC source, en fonction des signets définis précédemment. Vous spécifiez les tables individuelles à inclure dans la base de données JDBC source. Pour chaque tableau, vous choisissez les colonnes des signets et l'ordre de tri des favoris afin de suivre les données précédemment chargées. La première fois que vous exécutez un plan de base de données incrémentiel sur un ensemble de tables, le flux de travail charge toutes les données des tables et définit des signets pour la prochaine exécution du plan de base de données incrémentiel. Vous pouvez donc utiliser un plan de base de données incrémentiel au lieu du plan de capture de base de données pour charger toutes les données, à condition de spécifier chaque table de la source de données en tant que paramètre.

  • Fichier journal : charge en bloc des données à partir de sources de fichiers journaux AWS CloudTrail, notamment les journaux Elastic Load Balancing et les journaux Application Load Balancer.

Utilisez le tableau suivant pour déterminer s'il convient d'utiliser un instantané de base de données ou un plan de base de données incrémentiel.

Utilisez un instantané de base de données lorsque... Utiliser une base de données incrémentielle lorsque...
  • L'évolution du schéma est flexible. (Les colonnes sont renommées, les colonnes précédentes sont supprimées et de nouvelles colonnes sont ajoutées à leur place.)

  • Une cohérence complète est nécessaire entre la source et la destination.

  • L'évolution du schéma est progressive. (Il n'y a que des ajouts successifs de colonnes.)

  • Seules les nouvelles lignes sont ajoutées ; les lignes précédentes ne sont pas mises à jour.

Note

Les utilisateurs ne peuvent pas modifier les plans et les flux de travail créés par Lake Formation.