Créez et exécutez des recettes de préparation de données dans une AWS Glue tâche ETL visuelle - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Créez et exécutez des recettes de préparation de données dans une AWS Glue tâche ETL visuelle

Dans ce scénario, vous pouvez créer des recettes de préparation des données sans avoir à les créer au préalable DataBrew. Avant de commencer à créer des recettes, vous devez :

  • Avoir une session d'aperçu des données active en cours d'exécution. Lorsque la session de prévisualisation des données est PRÊTE, Author Recipe devient active et vous pouvez commencer à créer ou à modifier votre recette.

    La capture d'écran montre que la session d'aperçu des données est terminée.
  • Assurez-vous que l'option Importer automatiquement les bibliothèques de colle est activée.

    La capture d'écran montre que l'option Importer automatiquement les bibliothèques de colle est activée.

    Vous pouvez le faire en choisissant l'icône en forme de roue dentée dans le volet d'aperçu des données.

    La capture d'écran montre que l'option Importer automatiquement les bibliothèques de colle est activée.
Pour créer une recette de préparation des données dans AWS Glue Studio :
  1. Ajoutez la transformation Data Preparation Recipe à votre canevas de travail. Votre transformation doit être connectée à un nœud de source de données parent. Lorsque vous ajoutez le nœud Data Preparation Recipe, celui-ci redémarrera avec les bibliothèques appropriées et vous verrez le bloc de données en cours de préparation.

    La capture d'écran montre le chargement du bloc de données après l'ajout de la recette de préparation des données.
  2. Une fois que la session d'aperçu des données est prête, les données contenant les étapes précédemment appliquées apparaîtront en bas de l'écran.

  3. Choisissez Author Recipe. Cela vous permettra de démarrer une nouvelle recette dans AWS Glue Studio.

    La capture d'écran montre le panneau Transform avec les champs pour les parents Name et Node, ainsi que l'option Author Recipe.
  4. Dans le panneau Transformation situé à droite du canevas de tâches, entrez le nom de votre recette de préparation des données.

  5. Sur le côté gauche, le canevas sera remplacé par une vue en grille de vos données. Sur la droite, le panneau Transform changera pour vous montrer les étapes de votre recette. Choisissez Ajouter une étape pour ajouter la première étape à votre recette.

    La capture d'écran montre le panneau Transform après avoir sélectionné Add Step. Lorsque vous choisissez une colonne, les options changent de manière dynamique. Vous pouvez choisir de trier, d'effectuer une action sur la colonne et de filtrer les valeurs.
  6. Dans le panneau Transformation, choisissez de trier, d'effectuer une action sur la colonne et de filtrer les valeurs. Par exemple, choisissez Renommer la colonne.

    La capture d'écran montre le panneau Transform après avoir sélectionné Add Step. Lorsque vous choisissez une colonne, les options changent de manière dynamique. Vous pouvez choisir de trier, d'effectuer une action sur la colonne et de filtrer les valeurs.
  7. Dans le panneau Transformation sur le côté droit, les options permettant de renommer une colonne vous permettent de choisir la colonne source à renommer et de saisir le nouveau nom de colonne. Une fois que vous l'avez fait, choisissez Appliquer.

    Vous pouvez prévisualiser chaque étape, annuler une étape, réorganiser les étapes et utiliser n'importe laquelle des icônes d'action, telles que Filtrer, Trier, Diviser, Fusionner, etc. Lorsque vous effectuez des actions dans la grille de données, les étapes sont ajoutées à la recette dans le panneau Transformation.

    La capture d'écran montre la grille de données d'aperçu avec la barre d'outils surlignée. Vous pouvez appliquer une action à l'aide de n'importe quel outil et elle sera ajoutée à la recette dans le panneau Transformation sur la droite.

    Si vous devez apporter une modification, vous pouvez le faire dans le volet d'aperçu en prévisualisant le résultat de chaque étape, en annulant une étape et en réorganisant les étapes. Par exemple :

    • Annuler/rétablir une étape : annulez une étape en cliquant sur l'icône Annuler. Vous pouvez répéter une étape en choisissant l'icône de rétablissement.

      La capture d'écran montre l'icône Plus.
    • Étape de réorganisation : lorsque vous réorganisez une étape, AWS Glue Studio chaque étape est validée et vous indique si l'étape n'est pas valide.

  8. Une fois que vous avez appliqué une étape, le panneau Transformation affiche toutes les étapes de votre recette. Vous pouvez effacer toutes les étapes pour recommencer, ajouter d'autres étapes en cliquant sur l'icône d'ajout ou choisir Terminer la création de la recette.

    La capture d'écran montre le panneau Transform avec les étapes ajoutées à votre recette. Lorsque vous avez terminé, choisissez Terminer la création de la recette ou cliquez sur l'icône d'ajout pour ajouter d'autres étapes à la recette.
  9. Choisissez Enregistrer en haut à droite de votre écran. Les étapes de votre recette ne seront pas enregistrées tant que vous n'aurez pas enregistré votre travail.