Comprendre les tables, les bases de données et les catalogues de données dans Athena - Amazon Athena

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Comprendre les tables, les bases de données et les catalogues de données dans Athena

Dans Athena, les catalogues, les bases de données et les tables sont des conteneurs pour les définitions de métadonnées qui définissent un schéma pour les données sources sous-jacentes.

Athena utilise les termes suivants pour désigner les hiérarchies d'objets de données :

  • Source de données : un groupe de bases de données

  • Base de données : un groupe de tables

  • Table : des données organisées sous la forme d'un groupe de lignes ou de colonnes

Parfois, ces objets sont également désignés par des noms alternatifs mais équivalents, tels que les suivants :

  • Une source de données est parfois appelée catalogue.

  • Une base de données est parfois appelée schéma.

Note

Cette terminologie peut varier selon les sources de données fédérées que vous utilisez avec Athena. Pour plus d’informations, consultez Comprendre les qualificatifs de noms de tables fédérés.

L'exemple de requête suivant dans la console Athena utilise la source de données awsdatacatalog, la base de données default et la table some_table.

Hiérarchie des objets de données dans l'éditeur de requêtes Athena.

Il doit y avoir une table dans Athena pour chaque jeu de données. Les métadonnées figurant dans cette table indiquent à Athena où les données sont situées dans Simple Storage Service (Amazon S3) et spécifient la structure des données, telle que les noms de colonne, les types de données et le nom de la table. Les bases de données constituent un regroupement logique de tables et stockent uniquement les métadonnées et les informations de schéma pour un ensemble de données.

Pour chaque jeu de données que vous souhaitez interroger, Athena doit avoir une table sous-jacente qu'il utilisera pour obtenir et renvoyer les résultats de requête. Par conséquent, avant d'exécuter des requêtes sur les données, une table doit être enregistrée dans Athena. L'enregistrement se produit lorsque vous créez des tables automatiquement ou manuellement.

Vous pouvez créer une table automatiquement à l'aide d'un AWS Glue robot d'exploration. Pour plus d'informations sur AWS Glue les robots d'exploration, consultezAWS Glue À utiliser pour connecter Athena à vos données dans Amazon S3. Lorsqu'il AWS Glue crée une table, elle l'enregistre dans son propre catalogue de AWS Glue données. Athena utilise le catalogue de données AWS Glue pour stocker et récupérer ces métadonnées, et les utiliser lorsque vous exécutez des requêtes pour analyser le jeu de données sous-jacent.

Quelle que soit la façon dont les tables sont créées, le processus de création des tables enregistre le jeu de données dans Athena. Cet enregistrement a lieu dans le AWS Glue Data Catalog et permet à Athena d'exécuter des requêtes sur les données. Dans l'éditeur de requêtes Athena, ce catalogue (ou source de données) est désigné par l'étiquette AwsDataCatalog.

Après avoir créé une table, vous pouvez utiliser SQLSELECTdes instructions pour l'interroger, notamment pour obtenir des emplacements de fichiers spécifiques pour vos données sources. Les résultats de votre requête sont stockés dans Simple Storage Service (Amazon S3) dans l'emplacement de résultats de la requête que vous avez spécifié.

Le catalogue de AWS Glue données est accessible via votre compte Amazon Web Services. D'autres Services AWS peuvent partager le catalogue de AWS Glue données, afin que vous puissiez voir les bases de données et les tables créées au sein de votre organisation à l'aide d'Athena et vice versa.

  • Pour créer manuellement une table :

    • Utilisez la console Athena pour exécuter l'Assistant de création de table.

    • Utilisez la console Athena pour écrire des DDL instructions Hive dans l'éditeur de requêtes.

    • Utilisez l'Athena API ou CLI pour exécuter une chaîne de SQL requête contenant des DDL instructions.

    • Utilise l'Athéna JDBC ou ODBC le driver.

Lorsque vous créez des tables et des bases de données manuellement, Athena utilise les instructions du langage de définition de données HiveQL (DDL) telles que CREATE TABLECREATE DATABASE, et DROP TABLE under the hood pour créer des tables et des bases de données dans le. AWS Glue Data Catalog

Pour commencer, vous pouvez utiliser un didacticiel dans la console Athena ou consulter un step-by-step guide de la documentation d'Athena.

  • Pour utiliser le didacticiel dans la console Athena, cliquez sur l'icône d'information en haut à droite de la console, puis sur l'onglet Didacticiel.

  • Pour un step-by-step didacticiel sur la création d'une table et l'écriture de requêtes dans l'éditeur de requêtes Athena, voir. Mise en route