Spécification de l'emplacement de la table et du niveau de partitionnement - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Spécification de l'emplacement de la table et du niveau de partitionnement

Par défaut, lorsqu'un robot définit des tables pour les données stockées dans Amazon S3, il tente de fusionner les schémas et de créer des tables de niveau supérieur (). year=2019 Dans certains cas, vous pouvez vous attendre à ce que l’crawler crée une table pour le dossier month=Jan, mais à la place, l’crawler crée une partition puisqu'un dossier frère (month=Mar) a été fusionné dans la même table.

L'option d’crawler au niveau de la table vous offre la possibilité d'indiquer à l’crawler où se trouvent les tables et comment vous souhaitez que les partitions soient créées. Lorsque vous spécifiez un Table level (Niveau de la table), la table est créée à ce niveau absolu à partir du compartiment Amazon S3.

Regroupement de l'crawler avec le niveau de table défini sur niveau 2.

Lorsque vous configurez l'crawler sur la console, vous pouvez spécifier une valeur pour l'option d’crawler Table level (Niveau de la table). La valeur doit être un entier positif qui indique l'emplacement de la table (niveau absolu dans le jeu de données). Le niveau du dossier de niveau supérieur est 1. Par exemple, pour le chemin mydataset/year/month/day/hour, si le niveau est défini sur 3, la table est créée à l'emplacement mydataset/year/month.

Console
Spécification d'un niveau de table dans la configuration de l’crawler.
API

Lorsque vous configurez le robot d'exploration à l'aide duAPI, définissez le Configuration champ avec une représentation sous forme de chaîne de l'JSONobjet suivant, par exemple :

configuration = jsonencode( { "Version": 1.0, "Grouping": { TableLevelConfiguration = 2 } })
CloudFormation

Dans cet exemple, vous définissez l'option de niveau de table disponible dans la console au sein de votre CloudFormation modèle :

"Configuration": "{ \"Version\":1.0, \"Grouping\":{\"TableLevelConfiguration\":2} }"