Démo : interroger un lac de données Prérequis Création d'un schéma externe Interrogation des données dans votre lac de données Amazon S3

Interrogation d'un lac de données

Vous pouvez interroger des données dans un lac de données Amazon S3 en suivant l'ensemble des tâches décrites dans ce didacticiel. Tout d'abord, vous créez un schéma externe pour référencer la base de données externe dans AWS Glue Data Catalog. Vous pouvez ensuite interroger des données dans le lac de données Amazon S3.

Démo : interroger un lac de données

Pour savoir comment interroger un lac de données, regardez la vidéo suivante.

Prérequis

Avant d'utiliser votre lac de données dans l'éditeur de requête v2, confirmez que les éléments suivants ont été configurés dans votre environnement Amazon Redshift :

Explorez vos données Amazon S3 à l'aide de AWS Glue et activez votre catalogue de données pour AWS Lake Formation.
Créez un IAM rôle pour Amazon Redshift à l'aide du AWS Glue catalogue de données activé pour AWS Lake Formation. Pour plus de détails sur cette procédure, consultez Pour créer un IAM rôle pour Amazon Redshift à l'aide d'un AWS Glue Data Catalog activé pour AWS Lake Formation. Pour plus d'informations sur l'utilisation de Redshift Spectrum et de Lake Formation, voir Utilisation de Redshift Spectrum avec AWS Lake Formation.
Accordez SELECT des autorisations sur la table pour effectuer des requêtes dans la base de données Lake Formation. Pour plus de détails sur cette procédure, consultez To grant SELECT permissions on the table to query in the lake Formation database.

Vous pouvez vérifier dans la console Lake Formation (https://console.aws.amazon.com/lakeformation/), section Autorisations, page des autorisations du Data Lake, que le IAM rôle, AWS Glue la base de données et les tables disposent des autorisations appropriées.
Confirmez que votre utilisateur connecté dispose des autorisations nécessaires pour créer des schémas dans la base de données Amazon Redshift et accéder aux données de votre lac de données. Lorsque vous vous connectez à une base de données dans l'éditeur de requêtes v2, vous choisissez une méthode d'authentification qui inclut des informations d'identification, qui peuvent être un utilisateur de base de données ou un IAM utilisateur. L'utilisateur connecté doit disposer des autorisations et des privilèges de base de données appropriés, tels qu'un superuser. L'utilisateur admin Amazon Redshift qui a créé le cluster ou le groupe de travail dispose de privilèges de superuser et peut créer des schémas et gérer la base de données Redshift. Pour plus d'informations sur la connexion à une base de données avec l'éditeur de requête v2, consultez Connexion à une base de données Amazon Redshift.

Création d'un schéma externe

Pour interroger les données d'un lac de données Amazon S3, commencez par créer un schéma externe. Le schéma externe fait référence à la base de données externe dans AWS Glue Data Catalog.

Dans la vue Éditeur de l'éditeur de requête v2, choisissez Créer, puis Schéma.
Saisissez un nom de schéma.
Pour le Type de schéma, choisissez Externe.
Dans les détails du catalogue de données, la région est définie par défaut sur Région AWS où se trouve votre base de données Redshift.
Cliquez sur le bouton AWS Glue base de données à laquelle le schéma externe sera mappé et qui contient des références au AWS Glue tables.
Choisissez un IAMrôle pour Amazon Redshift disposant des autorisations requises pour interroger des données sur Amazon S3.
Choisissez éventuellement un IAMrôle autorisé à accéder au catalogue de données.
Choisissez Create schema (Créer un schéma).

Le schéma apparaît sous votre base de données dans l'arborescence.

Lors de la création du schéma, si vous recevez une erreur d'autorisation refusée pour votre base de données, vérifiez si l'utilisateur connecté a le privilège de base de données pour créer un schéma.

Interrogation des données dans votre lac de données Amazon S3

Vous utilisez le schéma que vous avez créé dans la procédure précédente.

Dans le panneau de l'arborescence, sélectionnez le schéma.
Pour afficher une définition de tableau, choisissez un tableau. Les colonnes du tableau et les types de données s’affichent.
Pour interroger une table, sélectionnez la table et, dans le menu contextuel (clic droit), choisissez Sélectionner une table pour générer une requête.

Exécutez la requête dans l'éditeur.

L'exemple suivant SQL a été généré par l'éditeur de requêtes v2 pour interroger toutes les lignes de AWS Glue table nomméeflightscsv. Les colonnes et les lignes affichées dans le résultat sont tronquées par souci de simplicité.


SELECT * FROM "dev"."mydatalake_schema"."flightscsv";
                        
year    quarter   month   dom  day_of_week   fl_date    unique_carrier  airline_id   carrier   tail_num   fl_num		
2016    4         10      19   3             10/19/16   OO              20304        OO         N753SK    3086	 
2016    4         10      19   3             10/19/16   OO              20304        OO         N753SK    3086	
2016    4         10      19   3             10/19/16   OO              20304        OO         N778SK    3087		
2016	4         10      19   3             10/19/16   OO              20304        OO         N778SK    3087	
...

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Interrogation du AWS Glue Data Catalog

Unités de partage des données