Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
AWS Glue composants
AWS Glue fournit une console et API des opérations pour configurer et gérer votre charge de travail d'extraction, de transformation et de chargement (ETL). Vous pouvez utiliser API des opérations via plusieurs langages spécifiques SDKs et le AWS Command Line Interface ()AWS CLI. Pour plus d'informations sur l'utilisation du AWS CLI, reportez-vous à la section Référence des AWS CLI commandes.
AWS Glue utilise le AWS Glue Data Catalog pour stocker les métadonnées relatives aux sources de données, aux transformations et aux cibles. Le Catalogue de données est un remplacement instantané du métastore Apache Hive. AWS Glue Jobs system Il fournit une infrastructure gérée pour définir, planifier et exécuter ETL des opérations sur vos données. Pour plus d'informations sur le AWS Glue API, consultezAWS Glue API.
AWS Glue console
Vous utilisez la AWS Glue console pour définir et orchestrer votre ETL flux de travail. La console lance plusieurs API opérations dans AWS Glue Data Catalog et AWS Glue Jobs system pour effectuer les tâches suivantes :
-
Définissez AWS Glue des objets tels que des tâches, des tables, des robots d'exploration et des connexions.
-
Planifier l'exécution des crawlers.
-
Définir les événements ou planifications des déclencheurs de tâche.
-
Recherchez et filtrez des listes d' AWS Glue objets.
-
Modifier les scripts de transformation.
AWS Glue Data Catalog
AWS Glue Data Catalog Il s'agit de votre magasin de métadonnées techniques permanent dans le AWS cloud.
Chaque AWS compte en possède un AWS Glue Data Catalog par AWS région. Chaque catalogue de données est un ensemble hautement évolutif de tableaux organisés en bases de données. Une table est une représentation par métadonnées d'un ensemble de données structurées ou semi-structurées stockées dans des sources telles qu'AmazonRDS, le système de fichiers distribué Apache Hadoop, Amazon OpenSearch Service, etc. AWS Glue Data Catalog Il fournit un référentiel uniforme dans lequel des systèmes disparates peuvent stocker et rechercher des métadonnées afin de suivre les données dans des silos de données. Vous pouvez ensuite utiliser les métadonnées pour interroger et transformer ces données de manière cohérente dans une grande variété d'applications.
Vous utilisez le catalogue de données ainsi que les AWS Identity and Access Management politiques et Lake Formation pour contrôler l'accès aux tables et aux bases de données. Pour ce faire, vous pouvez autoriser différents groupes de votre entreprise à publier les données en toute sécurité à l'échelle de l'organisation tout en protégeant au maximum les informations sensibles.
Le catalogue de données, ainsi que Lake Formation, vous fournissent également des fonctionnalités complètes d'audit et de gouvernance, avec un suivi des modifications de schéma et des contrôles d'accès aux données. CloudTrail Cela permet de s'assurer que les données ne sont pas modifiées de façon inappropriée ou partagées par inadvertance.
Pour plus d'informations sur la sécurisation et l'audit du AWS Glue Data Catalog, consultez :
-
AWS Lake Formation – Pour en savoir plus, consultez Présentation d' AWS Lake Formation dans le Guide du développeur AWS Lake Formation .
-
CloudTrail— Pour plus d'informations, voir Qu'est-ce que c'est CloudTrail ? dans le guide de AWS CloudTrail l'utilisateur.
Voici d'autres AWS services et projets open source qui utilisent : AWS Glue Data Catalog
-
Amazon Athena – Pour plus d'informations, veuillez consulter la rubrique Présentation des tables, des bases de données et du catalogue de données dans le Guide de l'utilisateur Amazon Athena.
-
Amazon Redshift Spectrum Pour en savoir plus, consultez la rubrique Utilisation d'Amazon Redshift Spectrum pour interroger des données externes dans le Guide du développeur de base de données Amazon Redshift.
-
Amazon EMR — Pour plus d'informations, consultez la section Utiliser les politiques basées sur les ressources pour Amazon EMR Access to AWS Glue Data Catalog dans le guide de EMRgestion Amazon.
-
AWS Glue Data Catalog client pour le métastore Apache Hive — Pour plus d'informations sur ce GitHub projet, voir AWS Glue Data Catalog Client pour le métastore Apache
Hive.
AWS Glue chenilles et classificateurs
AWS Glue vous permet également de configurer des robots d'exploration capables de scanner les données dans toutes sortes de référentiels, de les classer, d'en extraire des informations de schéma et de stocker les métadonnées automatiquement dans le. AWS Glue Data Catalog Ils AWS Glue Data Catalog peuvent ensuite être utilisés pour guider ETL les opérations.
Pour de plus amples informations sur la configuration des crawlers et des classifieurs, veuillez consulter Utilisation de robots pour alimenter le catalogue de données . Pour plus d'informations sur la façon de programmer des robots d'exploration et des classificateurs à l'aide du AWS Glue API, consultez. API de classifieurs et d'crawlers
AWS Glue ETLopérations
À l'aide des métadonnées du catalogue de données, AWS Glue vous pouvez générer automatiquement des scripts Scala ou PySpark (Python API pour Apache Spark) avec des AWS Glue extensions que vous pouvez utiliser et modifier pour effectuer diverses ETL opérations. Par exemple, vous pouvez extraire, nettoyer et transformer les données brutes, puis stocker le résultat dans un référentiel différent, où il peut être interrogé et analysé. Un tel script peut convertir un CSV fichier en une forme relationnelle et l'enregistrer dans Amazon Redshift.
Pour plus d'informations sur l'utilisation AWS Glue ETL des fonctionnalités, consultezProgrammation de scripts Spark.
Diffusion ETL en continu AWS Glue
AWS Glue vous permet d'effectuer des ETL opérations sur des données en streaming à l'aide de tâches exécutées en continu. AWS Glue le streaming ETL repose sur le moteur de streaming structuré Apache Spark et peut ingérer des flux provenant d'Amazon Kinesis Data Streams, d'Apache Kafka et d'Amazon Managed Streaming for Apache Kafka (Amazon). MSK Le streaming ETL permet de nettoyer et de transformer les données de streaming et de les charger dans Amazon S3 ou dans JDBC des magasins de données. Utilisez Streaming ETL in AWS Glue pour traiter les données d'événements telles que les flux IoT, les flux de clics et les journaux réseau.
Si vous connaissez le schéma de la source de données de streaming, vous pouvez le spécifier dans une table du catalogue de données. Si ce n'est pas le cas, vous pouvez activer la détection des schémas dans la ETL tâche de streaming. La tâche détermine ensuite automatiquement le schéma à partir des données entrantes.
La ETL tâche de streaming peut utiliser à la fois des transformations AWS Glue intégrées et des transformations natives d'Apache Spark Structured Streaming. Pour plus d'informations, consultez la section Opérations sur le DataFrames streaming/Datasets
Pour de plus amples informations, veuillez consulter Offres d'ETLemploi en streaming dans AWS Glue.
Le système AWS Glue d'emplois
AWS Glue Jobs system Il fournit une infrastructure gérée pour orchestrer votre ETL flux de travail. Vous pouvez créer des tâches AWS Glue qui automatisent les scripts que vous utilisez pour extraire, transformer et transférer des données vers différents emplacements. Les tâches peuvent être programmées et chaînées, ou elles peuvent être déclenchées par des événements tels que l'arrivée de nouvelles données.
Pour plus d'informations sur l'utilisation du AWS Glue Jobs system, consultezSurveillance AWS Glue. Pour plus d'informations sur la programmation à l'aide du AWS Glue Jobs system API, voirAPI de tâches.
ETLComposants visuels
AWS Glue vous permet de créer des ETL tâches à l'aide d'un canevas visuel que vous pouvez manipuler.
![La capture d'écran montre que le panneau des ressources est fermé.](images/glue-studio-canvas.png)
ETLmenu des tâches
Les options du menu situées en haut du canevas vous permettent d'accéder aux différentes vues et aux détails de configuration de votre tâche.
-
Visuel : le canevas de l'éditeur de tâche visuel. C'est ici que vous pouvez ajouter des nœuds pour créer une tâche.
-
Script — La représentation scripturaire de votre ETL travail. AWS Glue génère le script en fonction de la représentation visuelle de votre travail. Vous pouvez également modifier votre script ou le télécharger.
Note
Si vous choisissez de modifier le script, l'expérience de création de tâches est définitivement convertie en mode script uniquement. Ensuite, vous ne pourrez plus utiliser l'éditeur visuel pour modifier la tâche. Vous devez ajouter toutes les sources de tâches, les transformations et les cibles, et apporter toutes les modifications nécessaires à l'aide de l'éditeur visuel avant de choisir de modifier le script.
-
Détails de la tâche : l'onglet Détails de la tâche vous permet de configurer votre tâche en définissant les propriétés de la tâche. Il existe des propriétés de base, telles que le nom et la description de votre poste, le IAM rôle, le type de travail, AWS la version de Glue, la langue, le type de travailleur, le signet du travail, l'exécution flexible, le nombre de départs à la retraite et le délai d'expiration du travail, ainsi que des propriétés avancées, telles que les connexions, les bibliothèques, les paramètres du travail et les balises.
-
Exécutions : après l'exécution de votre tâche, vous pouvez accéder à cet onglet pour consulter vos précédentes exécutions de tâches.
-
Qualité des données : la qualité des données évalue et contrôle la qualité de vos ressources de données. Vous pouvez en savoir plus sur l'utilisation de la qualité des données dans cet onglet et ajouter une transformation de qualité des données à votre tâche.
-
Calendriers : les tâches que vous avez planifiées apparaissent dans cet onglet. Si aucun calendrier n'est associé à cette tâche, cet onglet n'est pas accessible.
-
Contrôle de version : vous pouvez utiliser Git avec votre tâche en la configurant dans un référentiel Git.
ETLPanneaux visuels
Lorsque vous travaillez dans le canevas, plusieurs panneaux sont disponibles pour vous aider à configurer vos nœuds ou à prévisualiser vos données et à visualiser le schéma de sortie.
-
Propriétés : le panneau Propriétés apparaît lorsque vous choisissez un nœud sur votre canevas.
-
Aperçu des données : le panneau Aperçu des données fournit un aperçu de la sortie des données afin que vous puissiez prendre des décisions avant d'exécuter votre tâche et d'examiner votre sortie.
-
Schéma de sortie : l'onglet Schéma de sortie vous permet de visualiser et de modifier le schéma de vos nœuds de transformation.
Redimensionnement des panneaux
Vous pouvez redimensionner le panneau Propriétés sur le côté droit de l'écran et le panneau inférieur qui contient les onglets Aperçu des données et Schéma de sortie en cliquant sur le bord du panneau et en le faisant glisser vers la gauche et la droite ou vers le haut et le bas.
-
Panneau Propriétés : redimensionnez le panneau Propriétés en cliquant et en faisant glisser le bord du canevas sur le côté droit de l'écran, puis en le faisant glisser vers la gauche pour augmenter sa largeur. Par défaut, le panneau est réduit et lorsqu'un nœud est sélectionné, le panneau Propriétés s'ouvre à sa taille par défaut.
-
Panneau Aperçu des données et Schéma de sortie : redimensionnez le panneau inférieur en cliquant et en faisant glisser le bord inférieur du canevas en bas de l'écran, puis en le faisant glisser vers le haut pour augmenter sa hauteur. Par défaut, le panneau est réduit et lorsqu'un nœud est sélectionné, le panneau inférieur s'ouvre à sa taille par défaut.
Canevas de tâche
Vous pouvez ajouter, supprimer et déplacer/réorganiser des nœuds directement sur le Visual Canvas. ETL Considérez-le comme votre espace de travail pour créer une ETL tâche entièrement fonctionnelle qui commence par une source de données et peut se terminer par une cible de données.
Lorsque vous travaillez avec des nœuds sur le canevas, vous disposez d'une barre d'outils qui vous permet d'effectuer des zooms avant et arrière, de supprimer des nœuds, d'établir ou de modifier des connexions entre les nœuds, de modifier l'orientation du flux de travail et d'annuler ou de rétablir une action.
![La capture d'écran montre que le panneau des ressources est fermé.](images/glue-studio-canvas-toolbar.png)
La barre d'outils flottante est ancrée dans le coin supérieur droit du canevas et contient plusieurs images qui effectuent des actions :
-
Icône de mise en page : la première icône de la barre d'outils est l'icône de mise en page. Par défaut, la direction des tâches visuelles est de haut en bas. Elle réorganise la direction de votre tâche visuelle en disposant les nœuds horizontalement de gauche à droite. Cliquez à nouveau sur l'icône de mise en page pour revenir de haut en bas.
-
Icône de recentrage : l'icône de recentrage modifie l'affichage du canevas en le centrant. Vous pouvez l'utiliser pour des tâches importantes pour revenir à la position centrale.
-
Icône de zoom avant : l'icône de zoom avant agrandit la taille des nœuds du canevas.
-
Icône de zoom arrière : l'icône de zoom avant réduit la taille des nœuds du canevas.
-
Icône corbeille : l'icône de corbeille supprime un nœud de la tâche visuelle. Vous devez d'abord sélectionner un nœud.
-
Icône d'annulation : l'icône d'annulation annule la dernière action effectuée sur la tâche visuelle.
-
Icône de rétablissement : l'icône de rétablissement répète la dernière action effectuée sur la tâche visuelle.
Utilisation de la mini-carte
![La capture d'écran montre un gros plan de la mini-carte.](images/glue-studio-canvas-minimap.png)
Panneau des ressources
Le panneau des ressources contient toutes les sources de données, les actions de transformation et les connexions disponibles. Ouvrez le panneau des ressources sur le canevas en cliquant sur l'icône « + ». Cela ouvre le panneau des ressources.
Pour fermer le panneau des ressources, cliquez sur la croix, X, dans le coin supérieur droit du panneau des ressources. Le panneau est ainsi masqué jusqu'à ce que vous souhaitiez l'ouvrir à nouveau.
![La capture d'écran montre que le panneau des ressources est fermé.](images/resource-panel-open.png)
Transformations et données populaires
En haut du panneau se trouve une collection de Transformations et de données populaires. Ces nœuds sont couramment utilisés dans AWS Glue. Choisissez-en un pour l'ajouter au canevas. Vous pouvez également masquer les Transformations et données populaires en cliquant sur le triangle situé à côté de l'en-tête Transformations et données populaires.
Dans la section Transformations et données populaires, vous pouvez rechercher des nœuds de transformations et de source de données. Les résultats apparaissent au fur et à mesure que vous saisissez du texte. Plus vous saisissez de caractères lors de votre requête de recherche, plus la liste des résultats diminuera. Les résultats de la recherche sont générés à partir du nom ou de la description du nœud. Choisissez un nœud pour l'ajouter à votre canevas.
Transformations et données
Deux onglets organisent les nœuds en Transformations et Données.
Transformations : lorsque vous choisissez l'onglet Transformations, toutes les transformations disponibles peuvent être sélectionnées. Choisissez une transformation pour l'ajouter au canevas. Vous pouvez également choisir Ajouter une transformation au bas de la liste des transformations, ce qui ouvrira une nouvelle page de documentation sur la création de Transformations visuelles personnalisées. En suivant les étapes, vous pourrez créer vos propres transformations. Vos transformations apparaîtront alors dans la liste des transformations disponibles.
Données : l'onglet de données contient tous les nœuds des Sources et des Cibles. Vous pouvez masquer les sources et les cibles en cliquant sur le triangle situé à côté de l'en-tête sources ou cibles. Vous pouvez afficher les sources et les cibles en cliquant à nouveau sur le triangle. Choisissez un nœud source ou cible pour l'ajouter au canevas. Vous pouvez également choisir Gérer les connexions pour ajouter une nouvelle connexion. Cela ouvrira la page Connecteurs dans la console.