Démarrer avec le kit AWS Glue Data Catalog - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Démarrer avec le kit AWS Glue Data Catalog

Le AWS Glue Data Catalog est votre centre de stockage de métadonnées permanent. Il s'agit d'un service géré que vous pouvez utiliser pour stocker, annoter et partager les métadonnées du cloud AWS. Pour plus d’informations, consultez AWS Glue Data Catalog.

La AWS Glue console et certaines interfaces utilisateur ont été récemment mises à jour.

Présentation

Vous pouvez utiliser ce didacticiel pour créer votre premier Catalogue de données AWS Glue, qui utilise un compartiment Amazon S3 comme source de données.

Dans le cadre de ce didacticiel, vous effectuerez les tâches suivantes à l'aide de la console AWS Glue :

  1. Créer une base de données

  2. Créer une table

  3. Utilisation d'un compartiment Amazon S3 comme source de données

Une fois ces étapes terminées, vous aurez utilisé avec succès un compartiment Amazon S3 comme source de données pour remplir le Catalogue de données AWS Glue.

Étape 1 : Créer une base de données

Pour commencer, connectez-vous à la AWS Glueconsole AWS Management Console et ouvrez-la.

Pour créer une base de données à l'aide de la console AWS Glue :

  1. Dans la console AWS Glue, choisissez Databases (Bases de données) dans le menu de gauche Data catalog (Catalogue de données).

  2. Choisissez Ajouter une base de données.

  3. Sur la page Créer une base de données, saisissez un nom pour la base de données. Dans la section Emplacement – facultatif, définissez l'emplacement de l'URI à utiliser par les clients du catalogue de données. Si vous ne connaissez pas cette information, vous pouvez poursuivre la création de la base de données.

  4. (Facultatif) Saisissez une description pour la base de données.

  5. Choisissez Create database (Créer une base de données).

Félicitations, vous venez de configurer votre première base de données à l'aide de la console AWS Glue. Votre nouvelle base de données apparaîtra dans la liste des bases de données disponibles. Vous pouvez modifier la base de données en choisissant le nom de la base de données dans le tableau de bord des Bases de données.

Étapes suivantes

Autres méthodes pour créer une base de données :

Vous venez de créer une base de données à l'aide de la console AWS Glue, mais il existe d'autres moyens de créer une base de données :

  • Vous pouvez utiliser des crawlers pour créer automatiquement une base de données et des tableaux pour vous. Pour configurer une base de données à l'aide d’crawlers, reportez-vous à Travailler avec des crawlers dans la console AWS Glue.

  • Vous pouvez utiliser des modèles AWS CloudFormation. Reportez-vous à Créer des ressources AWS Glue en utilisant des modèles AWS Glue Data Catalog.

  • Vous pouvez également créer une base de données à l'aide du module Opérations d'API de base de données AWS Glue.

    Pour créer une base de données à l'aide de l’opération create, structurez la demande en incluant les paramètres DatabaseInput (obligatoires).

    Par exemple :

    Voici des exemples illustrant comment utiliser l'interface de ligne de commande, Boto3 ou DDL pour définir un tableau basé sur le même fichier flights_data.csv à partir du compartiment S3 que vous avez utilisé dans le didacticiel.

    CLI
    aws glue create-database --database-input "{\"Name\":\"clidb\"}"
    Boto3
    glueClient = boto3.client('glue') response = glueClient.create_database( DatabaseInput={ 'Name': 'boto3db' } )

Pour en savoir plus sur les types de données, la structure et les opérations de l'API de base de données, consultez API d'une base de données.

Étapes suivantes

Dans la section suivante, vous allez créer un tableau et l'ajouter à votre base de données.

Vous pouvez également consulter les paramètres et les autorisations de votre catalogue de données. Consultez Travailler avec des paramètres de catalogue de base de données dans la console AWS Glue.

Étape 2. Créer une table

Au cours de cette étape, vous créez un tableau en utilisant la console AWS Glue.

  1. Dans la console AWS Glue, choisissez Tables (tableaux) dans le menu de gauche.

  2. Choisissez Add table (Ajouter une table).

  3. Configurez les propriétés de votre table en saisissant un nom pour votre table dans Table details (Détails de la table).

  4. Dans la section Databases (Bases de données), choisissez la base de données que vous avez créée à l'étape 1 dans le menu déroulant.

  5. Dans la section Add a data store (Ajouter un magasin de données), S3sera sélectionné par défaut comme type de source.

  6. Pour Data is located in (Les données se trouvent dans), choisissez Specified path in another account (Chemin d'accès spécifié dans un autre compte).

  7. Copiez et collez le chemin pour le champ de saisie Include path (Chemin à inclure) :

    s3://crawler-public-us-west-2/flight/2016/csv/

  8. Dans la section Data format (Format de données), pour Classification (Catégorie), choisissez CSV et pour Delimiter (Délimiteur), choisissez comma (,) (Virgule (,)). Choisissez Suivant.

  9. Il vous est demandé de définir un schéma. Un schéma définit la structure et le format d'un enregistrement de données. Choisissez Ajouter une colonne. Pour en savoir plus, consultez Registre de schémas .

  10. Spécifiez les propriétés de la colonne :

    1. Entrez un nom de colonne.

    2. Pour Type de colonne, « chaîne » est déjà sélectionnée par défaut.

    3. Pour Numéro de colonne, « 1 » est déjà sélectionné par défaut.

    4. Choisissez Ajouter.

  11. Il vous est demandé d'ajouter des index de partition. Ce nom est facultatif. Pour sauter cette étape, choisissez Next (Suivant).

  12. Une synthèse des propriétés du tableau s'affiche. Si tout se passe comme prévu, choisissez Create. Sinon, choisissez Back (Retour) et apportez les modifications nécessaires.

Félicitations, vous avez créé manuellement un tableau et l'avez associé à une base de données. Le tableau nouvellement créé apparaît dans le tableau de bord des tableaux. Dans le tableau de bord, vous pouvez gérer et modifier tous vos tableaux.

Pour en savoir plus, consultez la rubrique Travailler avec des tableaux dans la console AWS Glue.

Étapes suivantes

Étapes suivantes

Maintenant que le catalogue de données est renseigné, vous pouvez commencer à autoriser des tâches dans AWS Glue. Consultez la section Création de tâches ETL visuelles avec AWS Glue Studio.

Outre l'utilisation de la console, il existe d'autres moyens de définir des tableaux dans le catalogue de données, notamment :

  • Création et exécution d'un crawler

  • Ajouter des classificateurs à un crawler dans AWS Glue

  • Utilisation de l’API du tableau AWS Glue

  • Utilisation du modèle AWS Glue Data Catalog

  • Migrer un métastore Apache Hive.

  • Using the AWS CLI, Boto3 ou d'un langage de définition de données (DDL)

    Voici des exemples illustrant comment utiliser l'interface de ligne de commande, Boto3 ou DDL pour définir un tableau basé sur le même fichier flights_data.csv à partir du compartiment S3 que vous avez utilisé dans le didacticiel.

    Consultez la documentation pour savoir comment structurer une commande AWS CLI. L'exemple de CLI contient la syntaxe JSON pour la valeur « aws glue create-table --table-input ».

    CLI
    { "Name": "flights_data_cli", "StorageDescriptor": { "Columns": [ { "Name": "year", "Type": "bigint" }, { "Name": "quarter", "Type": "bigint" } ], "Location": "s3://crawler-public-us-west-2/flight/2016/csv", "InputFormat": "org.apache.hadoop.mapred.TextInputFormat", "OutputFormat": "org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat", "Compressed": false, "NumberOfBuckets": -1, "SerdeInfo": { "SerializationLibrary": "org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe", "Parameters": { "field.delim": ",", "serialization.format": "," } } }, "PartitionKeys": [ { "Name": "mon", "Type": "string" } ], "TableType": "EXTERNAL_TABLE", "Parameters": { "EXTERNAL": "TRUE", "classification": "csv", "columnsOrdered": "true", "compressionType": "none", "delimiter": ",", "skip.header.line.count": "1", "typeOfData": "file" } }
    Boto3
    import boto3 glue_client = boto3.client("glue") response = glue_client.create_table( DatabaseName='sampledb', TableInput={ 'Name': 'flights_data_manual', 'StorageDescriptor': { 'Columns': [{ 'Name': 'year', 'Type': 'bigint' }, { 'Name': 'quarter', 'Type': 'bigint' }], 'Location': 's3://crawler-public-us-west-2/flight/2016/csv', 'InputFormat': 'org.apache.hadoop.mapred.TextInputFormat', 'OutputFormat': 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat', 'Compressed': False, 'NumberOfBuckets': -1, 'SerdeInfo': { 'SerializationLibrary': 'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe', 'Parameters': { 'field.delim': ',', 'serialization.format': ',' } }, }, 'PartitionKeys': [{ 'Name': 'mon', 'Type': 'string' }], 'TableType': 'EXTERNAL_TABLE', 'Parameters': { 'EXTERNAL': 'TRUE', 'classification': 'csv', 'columnsOrdered': 'true', 'compressionType': 'none', 'delimiter': ',', 'skip.header.line.count': '1', 'typeOfData': 'file' } } )
    DDL
    CREATE EXTERNAL TABLE `sampledb`.`flights_data` ( `year` bigint, `quarter` bigint) PARTITIONED BY ( `mon` string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat' LOCATION 's3://crawler-public-us-west-2/flight/2016/csv/' TBLPROPERTIES ( 'classification'='csv', 'columnsOrdered'='true', 'compressionType'='none', 'delimiter'=',', 'skip.header.line.count'='1', 'typeOfData'='file')