Utilisation des prévisualisations de schéma dans l'éditeur de tâches visuel Utilisation des prévisualisations de données dans l'éditeur de tâches visuel Restrictions lors de l'utilisation de prévisualisations de données Génération de code de script

Fonctionnalités de l'éditeur de tâche

L'éditeur de tâches fournit les fonctionnalités suivantes pour la création et la modification des tâches.

Un diagramme visuel de votre tâche, avec un nœud pour chaque tâche : nœuds de source de données pour la lecture des données ; nœuds de transformation pour la modification des données ; nœuds de données cibles pour l'écriture des données.

Vous pouvez afficher et configurer les propriétés de chaque nœud dans le diagramme de tâches. Vous pouvez également afficher le schéma et les échantillons de données pour chaque nœud dans le diagramme de tâche. Ces fonctionnalités vous aident à vérifier que votre tâche modifie et transforme les données de la bonne manière, sans avoir à exécuter la tâche.
Un onglet d'affichage et d'édition de script, dans lequel vous pouvez modifier le code généré pour votre tâche.
Un onglet Détails de la tâche, dans lequel vous pouvez configurer divers paramètres pour personnaliser l'environnement dans lequel votre AWS Glue ETL tâche s'exécute.
Un onglet Exécutions, dans lequel vous pouvez afficher les exécutions actuelles et précédentes de la tâche, afficher l'état de l'exécution de celle-ci et accéder à ses journaux d'exécution.
Un onglet Qualité des données, dans lequel vous pouvez appliquer des règles de qualité des données à votre tâche.
Un onglet Planifications, dans lequel vous pouvez configurer l'heure de début de votre tâche ou configurer une exécution de tâche récurrente.
Un onglet Contrôle de version, dans lequel vous pouvez configurer un service Git à utiliser avec votre tâche.

Utilisation des prévisualisations de schéma dans l'éditeur de tâches visuel

Lorsque vous créez ou modifiez votre tâche, vous pouvez utiliser l'onglet Output Schema (Schéma de sortie) pour afficher le schéma de vos données.

Avant de voir le schéma, l'éditeur de tâche a besoin d'autorisations pour accéder à la source de données. Vous pouvez spécifier un IAM rôle dans l'onglet Détails du Job de l'éditeur ou dans l'onglet Output Schema pour un nœud. Si le IAM rôle dispose de toutes les autorisations nécessaires pour accéder à la source de données, vous pouvez ensuite consulter le schéma dans l'onglet Schéma de sortie d'un nœud.

Utilisation des prévisualisations de données dans l'éditeur de tâches visuel

Les prévisualisations des données vous aident à créer et à tester votre tâche à l'aide d'un échantillon de vos données, sans avoir à exécuter la tâche de manière répétée. En utilisant la prévisualisation des données, vous pouvez :

Testez un IAM rôle pour vous assurer que vous avez accès à vos sources de données ou à vos cibles de données.
Vérifier que la transformation modifie les données de la manière prévue. Par exemple, si vous utilisez une transformation de filtre, vous pouvez vous assurer que le filtre sélectionne le sous-ensemble de données approprié.
Vérifiez vos données. Si votre jeu de données contient des colonnes avec des valeurs de plusieurs types, l'aperçu des données affiche une liste de tuples pour ces colonnes. Chaque tuple contient le type de données et sa valeur.

Note

Si vous utilisez une session d'aperçu des données et un nœud de code personnalisé SQL ou personnalisé, la session d'aperçu des données exécutera le bloc de code SQL ou tel quel pour l'ensemble de données.

Lors de la création ou de la modification de votre tâche, vous pouvez utiliser l'onglet Prévisualisation des données sous le canevas de la tâche pour afficher un échantillon de vos données. Une nouvelle session d'aperçu des données démarre automatiquement lorsque le rôle est déjà configuré sur la tâche ou qu'un IAM rôle par défaut a été défini dans le compte. Si aucun rôle n'a été configuré auparavant, vous pouvez démarrer une session en sélectionnant le rôle.

La capture d'écran affiche l'onglet Prévisualisation des données d'un nœud.

Note

Le rôle que vous choisissez pour la session de prévisualisation des données sera également utilisé pour la tâche.

Vous pouvez voir l'état et la progression de votre session ainsi que les détails de la session en cliquant sur l'icône d'information.

Lorsque la session est prête, AWS Glue Studio charge les données pour le nœud que vous avez sélectionné. Vous pouvez voir le % d'avancement au fur et à mesure de sa progression.

La capture d'écran affiche l'onglet Prévisualisation des données pour un nœud qui a démarré.

Lorsque vous créez votre tâche visuelle, AWS Glue Studio mettra automatiquement à jour le schéma du nœud sélectionné lorsque vous activez Déduire les schémas de la session sous l'onglet Schéma en sortie.

Pour configurer vos préférences pour les prévisualisations des données :

Choisissez l'icône des paramètres (symbole d'engrenage) pour configurer vos préférences pour les prévisualisations des données. Ces paramètres s'appliquent à tous les nœuds dans le diagramme de tâche. Vous pouvez :

Choisir d'envelopper le texte d'une ligne à l'autre. Cette option est activée par défaut
Modifier le nombre de lignes (200 par défaut)
Choisissez un IAM rôle ou créez-en un IAM si nécessaire
Choisir de démarrer automatiquement une nouvelle session lorsque vous créez une tâche. Cela permet d’ouvrir une nouvelle session interactive lors de la création de tâches. Ce paramètre s’applique au niveau du compte. Une fois défini, il s’appliquera à tous les utilisateurs de votre compte lors de la modification d’une tâche.
Choisir de déduire automatiquement le schéma. Les schémas en sortie seront automatiquement déduits pour le nœud sélectionné
Choisir d'importer automatiquement les bibliothèques AWS Glue. Ceci est utile pour empêcher la prévisualisation des données de redémarrer de nouvelles sessions lors de l'ajout de nouvelles transformations nécessitant un redémarrage de session

La capture d'écran montre les préférences que vous pouvez définir pour la fonctionnalité de prévisualisation des données.

Les fonctionnalités supplémentaires incluent la possibilité de :

Choisissez le bouton Previewing x of y fields (Prévisualiser x des y champs) pour sélectionner les colonnes (champs) à afficher. Lorsque vous prévisualisez vos données à l'aide des paramètres par défaut, l'éditeur de tâches affiche les 5 premières colonnes de votre jeu de données. Vous pouvez le modifier pour afficher tout ou aucun (non recommandé).
Faire défiler la fenêtre de prévisualisation des données horizontalement et verticalement.
Utilisez le bouton d'agrandissement pour étendre l'onglet Prévisualisation des données et le superposer au graphique des tâches afin de mieux visualiser les données et les structures de données. De même, utilisez le bouton de réduction pour réduire l'onglet Prévisualisation des données. Vous pouvez également saisir le panneau de poignée et le faire glisser vers le haut pour développer l'onglet Prévisualisation des données.
Cliquez sur Mettre fin à la session pour arrêter la prévisualisation des données. Lorsque vous arrêtez la session, vous pouvez choisir un nouveau IAM rôle et définir des paramètres supplémentaires (tels que les paramètres d'activation ou de désactivation) pour démarrer automatiquement une nouvelle session, déduire un schéma ou importer des AWS Glue bibliothèques, puis redémarrer la session.

Restrictions lors de l'utilisation de prévisualisations de données

Lorsque vous utilisez des prévisualisations de données, il se peut que vous disposiez des restrictions ou limitations suivantes.

La première fois que vous choisissez l'onglet Aperçu des données, vous devez choisir IAM un rôle. Ce rôle doit disposer des autorisations nécessaires pour accéder aux données et aux autres ressources nécessaires à la création des prévisualisations de données.
Une fois que vous avez fourni un IAM rôle, il faut un certain temps avant que les données ne soient disponibles pour consultation. Pour les jeux de données avec moins de 1 Go de données, cela peut prendre jusqu'à une minute. Si vous disposez d'un jeu de données volumineux, vous devriez utiliser des partitions pour améliorer le temps de chargement. Le chargement des données directement à partir d'Amazon S3 offre les meilleures performances.
Si vous disposez d'un jeu de données très volumineux et qu'il faut plus de 15 minutes pour interroger les données pour la prévisualisation des données, la requête expire. Les aperçus des données ont un IDLE délai d'expiration de 30 minutes. Pour pallier ce problème, réduisez la taille du jeu de données pour utiliser des prévisualisations de données.
Par défaut, les 50 premières colonnes s'affichent dans l'onglet Prévisualisation des données. Si les colonnes n'ont pas de valeurs de données, vous recevrez un message indiquant qu'il n'y a pas de données à afficher. Vous pouvez augmenter le nombre de lignes échantillonnées ou sélectionner différentes colonnes pour afficher les valeurs de données.
Les prévisualisations de données ne sont actuellement pas prises en charge pour les sources de données en streaming ou pour les sources de données qui utilisent des connecteurs personnalisés.
Les erreurs sur un nœud affectent l'ensemble de la tâche. Si un nœud a une erreur avec les prévisualisations de données, l'erreur apparaîtra sur tous les nœuds jusqu'à ce que vous le corrigiez.
Si vous modifiez une source de données pour la tâche, il se peut que les nœuds enfants de cette source de données doivent être mis à jour pour correspondre au nouveau schéma. Par exemple, si un ApplyMapping nœud modifie une colonne et que celle-ci n'existe pas dans la source de données de remplacement, vous devez mettre à jour le nœud de ApplyMapping transformation.
Si vous consultez l'onglet Aperçu des données d'un nœud de transformation de SQL requête et que la SQL requête utilise un nom de champ incorrect, l'onglet Aperçu des données affiche une erreur.

Génération de code de script

Lorsque vous utilisez l'éditeur visuel pour créer une tâche, le ETL code est automatiquement généré pour vous. AWS Glue Studiocrée un script de tâche fonctionnel et complet, et l'enregistre dans un emplacement Amazon S3.

Il existe deux formes de code générées par AWS Glue Studio : la version originale, ou classique, et une version plus récente et simplifiée. Par défaut, le nouveau générateur de code est utilisé pour créer le script de tâche. Vous pouvez générer un script de tâche à l'aide du générateur de code classique dans l'onglet Script en sélectionnant le bouton à bascule Generate classic script (Générer un script classique).

Voici quelques-unes des différences de la nouvelle version du code généré :

Les blocs de commentaires volumineux ne sont plus ajoutés au script
Les structures de sortie du code utilisent le nom du nœud que vous spécifiez dans l'éditeur visuel. Dans le script de classe, les structures de sortie sont simplement nommées DataSource0, DataSource1, Transform0, Transform1, DataSink0, DataSink1, etc.
Les commandes longues sont réparties sur plusieurs lignes pour supprimer le besoin de faire défiler la page pour voir l'ensemble de la commande.

Les nouvelles fonctions dans AWS Glue Studio nécessitent la nouvelle version de la génération de code et ne fonctionnent pas avec le script de code classique. Il vous est proposé de mettre à jour ces tâches lorsque vous tentez de les exécuter.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Démarrage de ETL tâches visuelles dans AWS Glue Studio

Transformez les données grâce AWS Glue à des transformations gérées