Utiliser plusieurs sources de données avec un robot

Lorsqu'un AWS Glue robot d'exploration analyse Amazon S3 et détecte plusieurs répertoires, il utilise une heuristique pour déterminer où se trouve la racine d'une table dans la structure du répertoire et quels répertoires sont des partitions de la table. Dans certains cas, si le schéma détecté dans deux ou plusieurs répertoires est similaire, le Crawler peut les traiter comme des partitions et pas comme des tables distinctes. L'une des solutions pour aider le Crawler à découvrir les tables individuelles consiste à ajouter le répertoire racine de chaque table comme magasin de données du analyseur.

Les partitions suivantes dans Simple Storage Service (Amazon S3) constituent un example :


s3://amzn-s3-demo-bucket/folder1/table1/partition1/file.txt
s3://amzn-s3-demo-bucket/folder1/table1/partition2/file.txt
s3://amzn-s3-demo-bucket/folder1/table1/partition3/file.txt
s3://amzn-s3-demo-bucket/folder1/table2/partition4/file.txt
s3://amzn-s3-demo-bucket/folder1/table2/partition5/file.txt

Si le schéma pour table1 et table2 est similaire, et si une seule source de données est définie sur s3://amzn-s3-demo-bucket/folder1/ in AWS Glue, le robot d'exploration peut créer une table unique avec deux colonnes de partition : une colonne de partition contenant table1 ettable2, et une seconde colonne de partition contenant partition1 des partition5

Pour que le AWS Glue robot crée deux tables distinctes, configurez le robot de manière à ce qu'il dispose de deux sources de donnéess3://amzn-s3-demo-bucket/folder1/table2, s3://amzn-s3-demo-bucket/folder1/table1/ et comme indiqué dans la procédure suivante.

Pour ajouter un magasin de données S3 à un robot d'exploration existant dans AWS Glue

Connectez-vous à la AWS Glue console AWS Management Console et ouvrez-la à l'adresse https://console.aws.amazon.com/glue/.
Dans le panneau de navigation, sélectionnez Crawlers. (Analyseurs)
Choisissez le lien vers votre crawler, puis choisissez Modification.
Étape 2 : Choisir des sources de données et des classificateurs, choisissez Modification.
Pour les sources de données et les catalogues, choisissez Ajouter une source de données.
Dans la boite de dialogue Ajouter une source de données pour le Chemin S3, choisissez Parcourir.
Choisissez le compartiment que vous souhaitez utiliser, ensuite choisissez Sélectionner un plan.

La source de données que vous avez ajoutée apparaît dans la liste Sources de données.
Choisissez Suivant.
Sur la page Configurer les paramètres de sécurité, créez ou choisissez un IAM rôle pour le robot d'exploration, puis choisissez Next.
Assurez-vous que le chemin S3 se termine par une barre oblique, avant de choisir ensuite Ajouter une source de données S3.
Sur la page Régler la sortie et la planification, pour la Configuration de sortie, sélectionnez la base de données cible.
Choisissez Suivant.
Sur la page Vérifier et mettre à jour, passez en revue les choix que vous avez effectués. Pour modifier une étape, sélectionnez Modification.
Choisissez Mettre à jour.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Utiliser un robot pour ajouter une table

Planifier un crawler