Vue d'ensemble de l'utilisation AWS Glue

Mode de mise au point

Vue d'ensemble de l'utilisation AWS Glue - AWS Glue

Avec AWS Glue, vous stockez les métadonnées dans le AWS Glue Data Catalog. Vous utilisez ces métadonnées pour orchestrer des tâches ETL qui transforment des sources de données et chargent votre entrepôt de données ou votre lac de données. Les étapes suivantes décrivent le flux de travail général et certains des choix que vous effectuez lorsque vous travaillez avec AWS Glue.

Note

Vous pouvez suivre les étapes ci-dessous, ou créer un flux de travail qui exécute automatiquement les étapes 1 à 3. Pour de plus amples informations, veuillez consulter Réalisation d'activités ETL complexes à l'aide de plans et de flux de travail dans AWS Glue.

Renseignez le AWS Glue Data Catalog avec les définitions des tables.

Dans la console, pour les magasins de données persistantes, vous pouvez ajouter un crawler pour remplir le AWS Glue Data Catalog. Vous pouvez lancer l'assistant Add crawler (Ajout d'un crawler) à partir de la liste des tables ou de la liste des crawlers. Vous choisissez un ou plusieurs magasins de données auxquels votre crawler accèdera. Vous pouvez également créer un calendrier pour déterminer la fréquence d'exécution de votre crawler. Pour les flux de données, vous pouvez créer manuellement la définition de table et définir les propriétés de flux.

Si vous le souhaitez, vous pouvez fournir un classifieur personnalisé qui déduit le schéma de vos données. Vous pouvez créer des classifieurs personnalisés à l'aide d'un modèle grok. Cependant, AWS Glue fournit des classificateurs intégrés qui sont automatiquement utilisés par les robots d'exploration si un classificateur personnalisé ne reconnaît pas vos données. Lorsque vous définissez un crawler, vous n'avez pas besoin de sélectionner un classifieur. Pour plus d'informations sur les classificateurs dans AWS Glue, voir Définition et gestion des classificateurs.

L'analyse de certains types de magasins de données nécessite une connexion qui fournit des informations de localisation et d'authentification. Le cas échéant, vous pouvez créer une connexion qui fournit ces informations requises dans AWS Glue console.

L'crawler lit votre magasin de données et crée des définitions de données et des tables nommées dans le AWS Glue Data Catalog. Ces tables sont organisées dans une base de données de votre choix. Vous pouvez également remplir le catalogue de données avec des tables créées manuellement. Avec cette méthode, vous fournissez le schéma et d'autres métadonnées pour créer des définitions de table dans le catalogue de données. Cette méthode pouvant être un peu fastidieuse et source d'erreurs, il est souvent préférable de faire créer les définitions de table par un crawler.

Pour plus d'informations sur le AWS Glue Data Catalog remplissage des définitions de tables, consultezCréation de tables.
Définissez une tâche qui décrit la transformation de données de la source vers la cible.

En général, pour créer une tâche, vous devez faire les choix suivants :
- Choisissez un tableau dans le tableau AWS Glue Data Catalog qui sera la source de la tâche. Votre tâche utilise cette définition de table pour accéder à votre source de données et interpréter le format de ces dernières.
- Choisissez une table ou un emplacement parmi ceux AWS Glue Data Catalog qui seront la cible de la tâche. Votre tâche utilise cette information pour accéder à votre magasin de données.
- Raconter AWS Glue pour générer un script permettant de transformer votre source en cible. AWS Glue génère le code permettant d'appeler des transformations intégrées afin de convertir les données de son schéma source au format de schéma cible. Ces transformations réalisent des opérations comme copier des données, renommer des colonnes et filtrer des données pour transformer les données si nécessaire. Vous pouvez modifier ce script dans AWS Glue console.
Pour plus d'informations sur la définition des tâches dans AWS Glue, voir Création de tâches ETL visuelles avec AWS Glue Studio.
Exécutez votre tâche pour transformer vos données.

Vous pouvez exécuter votre tâche à la demande, ou la démarrer en fonction d'un des types de déclencheurs suivants :
- Un déclencheur basé sur une planification cron.
- Un déclencheur basé sur un événement ; par exemple, la réussite d'une autre tâche peut démarrer une AWS Glue travail.
- Un déclencheur qui lance une tâche à la demande.
Pour plus d'informations sur les déclencheurs dans AWS Glue, voir Démarrage des tâches et des crawlers à l'aide de déclencheurs.
Surveillez vos crawlers planifiés et vos tâches déclenchées.

Utilisez la commande AWS Glue console pour afficher les éléments suivants :
- Les détails et les erreurs de l'exécution d'une tâche.
- Les détails et les erreurs de l'exécution d'un crawler.
- Toutes les notifications concernant AWS Glue activités
Pour plus d'informations sur la surveillance de vos robots d'exploration et de vos jobs dans AWS Glue, voir Surveillance AWS Glue.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Premiers pas

Configuration des autorisations IAM

Sélectionner vos préférences de cookies

Personnaliser les préférences de cookies

Essentiels

Performances

Fonctionnels

Publicitaires

Impossible d'enregistrer les préférences concernant les cookies

Vue d'ensemble de l'utilisation AWS Glue

Note

Related resources

Cette page vous a-t-elle été utile ?

Related resources

Rubrique suivante :

Rubrique précédente :

Avez-vous besoin d’aide ?