Sélectionner vos préférences de cookies

Nous utilisons des cookies essentiels et des outils similaires qui sont nécessaires au fonctionnement de notre site et à la fourniture de nos services. Nous utilisons des cookies de performance pour collecter des statistiques anonymes afin de comprendre comment les clients utilisent notre site et d’apporter des améliorations. Les cookies essentiels ne peuvent pas être désactivés, mais vous pouvez cliquer sur « Personnaliser » ou « Refuser » pour refuser les cookies de performance.

Si vous êtes d’accord, AWS et les tiers approuvés utiliseront également des cookies pour fournir des fonctionnalités utiles au site, mémoriser vos préférences et afficher du contenu pertinent, y compris des publicités pertinentes. Pour accepter ou refuser tous les cookies non essentiels, cliquez sur « Accepter » ou « Refuser ». Pour effectuer des choix plus détaillés, cliquez sur « Personnaliser ».

AWS Glue : comment ça marche

Mode de mise au point
AWS Glue : comment ça marche - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

AWS Glue utilise d'autres AWS services pour orchestrer vos tâches ETL (extraction, transformation et chargement) afin de créer des entrepôts de données et des lacs de données et de générer des flux de sortie. AWS Glue appelle les opérations d'API pour transformer vos données, créer des journaux d'exécution, stocker la logique de vos tâches et créer des notifications pour vous aider à surveiller l'exécution de vos tâches. Le AWS Glue La console connecte ces services à une application gérée, afin que vous puissiez vous concentrer sur la création et le suivi de votre travail ETL. La console effectue les opérations de développement et de tâches administratives en votre nom. Vous fournissez des informations d'identification et d'autres propriétés à AWS Glue pour accéder à vos sources de données et écrire sur vos cibles de données.

AWS Glue prend en charge le provisionnement et la gestion des ressources nécessaires à l'exécution de votre charge de travail. Vous n'avez pas besoin de créer l'infrastructure d'un outil ETL car AWS Glue le fait pour toi. Lorsque des ressources sont requises, afin de réduire le temps de démarrage, AWS Glue utilise une instance de son pool d'instances chaud pour exécuter votre charge de travail.

Avec AWS Glue, vous créez des tâches à l'aide des définitions de tables de votre catalogue de données. Les tâches consistent en des scripts contenant les instructions qui exécutent les tâches de transformation de données souhaitées. Vous pouvez utiliser des déclencheurs pour initier des tâches sur un calendrier ou en tant que résultat d'un événement spécifié. Vous déterminez où résident vos données cible et les données source qui alimentent votre cible. Sur la base de vos contributions, AWS Glue transforme vos données du format source au format cible. Vous pouvez également fournir des scripts personnalisés dans AWS Glue console ou API pour traiter vos données en fonction de vos besoins spécifiques.

Sources et destinations des données

AWS Glue for Spark vous permet de lire et d'écrire des données provenant de plusieurs systèmes et bases de données, notamment :

  • Amazon S3

  • Amazon DynamoDB

  • Amazon Redshift

  • Amazon Relational Database Service (Amazon RDS)

  • Bases de données tierces accessibles à JDBC

  • MongoDB et Amazon DocumentDB (compatible avec MongoDB)

  • Autres connecteurs de place de marché et plug-ins Apache Spark

Flux de données

AWS Glue for Spark peut diffuser des données à partir des systèmes suivants :

  • Amazon Kinesis Data Streams

  • Apache Kafka

AWS Glue est disponible dans plusieurs AWS régions. Pour de plus amples informations, veuillez consulter AWS Régions et points de terminaison dans le manuel Référence générale d'Amazon Web Services.

Travaux ETL sans serveur exécutés en isolation

AWS Glue exécute vos tâches ETL dans un environnement sans serveur avec le moteur de votre choix, Spark ou Ray. AWS Glue exécute ces tâches sur des ressources virtuelles qu'il fournit et gère dans son propre compte de service.

AWS Glue est conçu pour effectuer les opérations suivantes :

  • Isoler les données clients.

  • Protéger les données client en transit et au repos.

  • Accéder aux données des clients uniquement en cas de besoin, en réponse à leurs demandes, à l'aide d'informations d'identification temporaires et réduites, ou aux rôles IAM de leur compte lorsqu'ils y consentent.

Lors de la mise en service d'une tâche ETL, vous fournissez des sources de données d'entrée et des cibles de données de sortie dans votre cloud privé virtuel (VPC). En outre, vous fournissez le rôle IAM, l'ID VPC, l'ID de sous-réseau et le groupe de sécurité nécessaires pour accéder aux sources et aux cibles de données. Pour chaque tuple (ID de compte client, rôle IAM, ID de sous-réseau et groupe de sécurité), AWS Glue crée un nouvel environnement isolé au niveau du réseau et de la gestion de tous les autres environnements de votre AWS Glue compte de service.

Vous créez et configurez AWS Glue des ressources, telles que des catalogues de données, des tâches et des robots d'exploration au sein de votre AWS compte. Ces ressources sont ensuite associées au rôle IAM et aux paramètres réseau (sous-réseau et groupe de sécurité) que vous spécifiez lors du processus de création.

AWS Glue crée des interfaces réseau élastiques dans votre sous-réseau à l'aide d'adresses IP privées. Les tâches utilisent ces interfaces réseau élastiques pour accéder à vos sources et à vos cibles de données. Le trafic entrant, sortant et au sein de l'environnement d'exécution des tâches est régi par votre VPC et vos politiques réseau, à une exception près : les appels passés à AWS Glue les bibliothèques peuvent rediriger le trafic vers AWS Glue Opérations d'API via le AWS Glue VPC. Tous AWS Glue Les appels d'API sont enregistrés ; les propriétaires des données peuvent donc auditer l'accès aux API en activant AWS CloudTrail, ce qui fournit des journaux d'audit à votre compte.

AWS Glue les environnements gérés qui exécutent vos tâches ETL sont protégés par les mêmes pratiques de sécurité que celles appliquées AWS aux autres services. Pour un aperçu des pratiques et des responsabilités partagées en matière de sécurité, consultez le livre blanc Introduction aux processus AWS de sécurité.

Rubrique suivante :

Concepts

Rubrique précédente :

Qu'est-ce que c'est AWS Glue ?
ConfidentialitéConditions d'utilisation du sitePréférences de cookies
© 2025, Amazon Web Services, Inc. ou ses affiliés. Tous droits réservés.