Interrogation d'un lac de données - Amazon Redshift

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Interrogation d'un lac de données

Vous pouvez interroger des données dans un lac de données Amazon S3 en suivant l'ensemble des tâches décrites dans ce didacticiel. Tout d'abord, vous créez un schéma externe pour référencer la base de données externe dans AWS Glue Data Catalog. Vous pouvez ensuite interroger des données dans le lac de données Amazon S3.

Démo : interroger un lac de données

Pour savoir comment interroger un lac de données, regardez la vidéo suivante.

Prérequis

Avant d'utiliser votre lac de données dans l'éditeur de requête v2, confirmez que les éléments suivants ont été configurés dans votre environnement Amazon Redshift :

  • Explorez vos données Amazon S3 à l'aide de AWS Glue et activez votre catalogue de données pour AWS Lake Formation.

  • Créez un IAM rôle pour Amazon Redshift à l'aide du AWS Glue catalogue de données activé pour AWS Lake Formation. Pour plus de détails sur cette procédure, consultez Pour créer un IAM rôle pour Amazon Redshift à l'aide d'un AWS Glue Data Catalog activé pour AWS Lake Formation. Pour plus d'informations sur l'utilisation de Redshift Spectrum et de Lake Formation, voir Utilisation de Redshift Spectrum avec AWS Lake Formation.

  • Accordez SELECT des autorisations sur la table pour effectuer des requêtes dans la base de données Lake Formation. Pour plus de détails sur cette procédure, consultez To grant SELECT permissions on the table to query in the lake Formation database.

    Vous pouvez vérifier dans la console Lake Formation (https://console.aws.amazon.com/lakeformation/), section Autorisations, page des autorisations du Data Lake, que le IAM rôle, AWS Glue la base de données et les tables disposent des autorisations appropriées.

  • Confirmez que votre utilisateur connecté dispose des autorisations nécessaires pour créer des schémas dans la base de données Amazon Redshift et accéder aux données de votre lac de données. Lorsque vous vous connectez à une base de données dans l'éditeur de requêtes v2, vous choisissez une méthode d'authentification qui inclut des informations d'identification, qui peuvent être un utilisateur de base de données ou un IAM utilisateur. L'utilisateur connecté doit disposer des autorisations et des privilèges de base de données appropriés, tels qu'un superuser. L'utilisateur admin Amazon Redshift qui a créé le cluster ou le groupe de travail dispose de privilèges de superuser et peut créer des schémas et gérer la base de données Redshift. Pour plus d'informations sur la connexion à une base de données avec l'éditeur de requête v2, consultez Connexion à une base de données Amazon Redshift.

Création d'un schéma externe

Pour interroger les données d'un lac de données Amazon S3, commencez par créer un schéma externe. Le schéma externe fait référence à la base de données externe dans AWS Glue Data Catalog.

  1. Dans la vue Éditeur de l'éditeur de requête v2, choisissez CreateCréer, puis Schéma.

  2. Saisissez un nom de schéma.

  3. Pour le Type de schéma, choisissez Externe.

  4. Dans les détails du catalogue de données, la région est définie par défaut sur Région AWS où se trouve votre base de données Redshift.

  5. Cliquez sur le bouton AWS Glue base de données à laquelle le schéma externe sera mappé et qui contient des références au AWS Glue tables.

  6. Choisissez un IAMrôle pour Amazon Redshift disposant des autorisations requises pour interroger des données sur Amazon S3.

  7. Choisissez éventuellement un IAMrôle autorisé à accéder au catalogue de données.

  8. Choisissez Create schema (Créer un schéma).

    Le schéma apparaît sous votre base de données dans l'arborescence.

Lors de la création du schéma, si vous recevez une erreur d'autorisation refusée pour votre base de données, vérifiez si l'utilisateur connecté a le privilège de base de données pour créer un schéma.

Interrogation des données dans votre lac de données Amazon S3

Vous utilisez le schéma que vous avez créé dans la procédure précédente.

  1. Dans le panneau de l'arborescence, sélectionnez le schéma.

  2. Pour afficher une définition de tableau, choisissez un tableau. Les colonnes du tableau et les types de données s’affichent.

  3. Pour interroger une table, sélectionnez la table et, dans le menu contextuel (clic droit), choisissez Sélectionner une table pour générer une requête.

  4. Exécutez la requête dans l'éditeur.

    L'exemple suivant SQL a été généré par l'éditeur de requêtes v2 pour interroger toutes les lignes de AWS Glue table nomméeflightscsv. Les colonnes et les lignes affichées dans le résultat sont tronquées par souci de simplicité.

    SELECT * FROM "dev"."mydatalake_schema"."flightscsv"; year quarter month dom day_of_week fl_date unique_carrier airline_id carrier tail_num fl_num 2016 4 10 19 3 10/19/16 OO 20304 OO N753SK 3086 2016 4 10 19 3 10/19/16 OO 20304 OO N753SK 3086 2016 4 10 19 3 10/19/16 OO 20304 OO N778SK 3087 2016 4 10 19 3 10/19/16 OO 20304 OO N778SK 3087 ...