Création d'un schéma unique pour chaque chemin d'inclusion Amazon S3

Par défaut, lorsqu'un crawler définit des tables pour des données stockées dans Amazon S3, il prend en compte la compatibilité des données et la similitude de schéma. Les facteurs de compatibilité des données pris en compte incluent le fait que les données soient du même format (par exempleJSON), du même type de compression (par exempleGZIP), de la structure du chemin Amazon S3 et d'autres attributs de données. La similarité des schémas définit le degré de similarité des schémas d'objets Amazon S3 distincts.

Pour vous aider à illustrer cette option, supposons que vous définissez un crawler avec un chemin d'inclusion s3://bucket/table1/. Lorsque le robot d'exploration s'exécute, il trouve deux JSON fichiers présentant les caractéristiques suivantes :

Fichier 1 – S3://bucket/table1/year=2017/data1.json
Contenu du fichier – {“A”: 1, “B”: 2}
Schéma – A:int, B:int

Fichier 2 – S3://bucket/table1/year=2018/data2.json
Contenu du fichier – {“C”: 3, “D”: 4}
Schéma – C: int, D: int

Par défaut, l'crawler crée deux tables, nommées year_2017 et year_2018 car les schémas ne sont pas suffisamment similaires. Toutefois, si l'option Create a single schema for each S3 path (Créer un seul schéma pour chaque chemin S3) est sélectionnée, et si les données sont compatibles, l'crawler crée une table. La table comprend le schéma A:int,B:int,C:int,D:int et partitionKey year:string.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Empêcher un robot d'exploration de modifier le schéma

Spécification de l'emplacement de la table et du niveau de partitionnement