Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Création d'un schéma unique pour chaque chemin d'inclusion Amazon S3
Par défaut, lorsqu'un crawler définit des tables pour des données stockées dans Amazon S3, il prend en compte la compatibilité des données et la similitude de schéma. Les facteurs de compatibilité des données pris en compte incluent le fait que les données soient du même format (par exempleJSON), du même type de compression (par exempleGZIP), de la structure du chemin Amazon S3 et d'autres attributs de données. La similarité des schémas définit le degré de similarité des schémas d'objets Amazon S3 distincts.
Pour vous aider à illustrer cette option, supposons que vous définissez un crawler avec un chemin d'inclusion s3://bucket/table1/
. Lorsque le robot d'exploration s'exécute, il trouve deux JSON fichiers présentant les caractéristiques suivantes :
-
Fichier 1 –
S3://bucket/table1/year=2017/data1.json
-
Contenu du fichier –
{“A”: 1, “B”: 2}
-
Schéma –
A:int, B:int
-
Fichier 2 –
S3://bucket/table1/year=2018/data2.json
-
Contenu du fichier –
{“C”: 3, “D”: 4}
-
Schéma –
C: int, D: int
Par défaut, l'crawler crée deux tables, nommées year_2017
et year_2018
car les schémas ne sont pas suffisamment similaires. Toutefois, si l'option Create a single schema for each S3 path (Créer un seul schéma pour chaque chemin S3) est sélectionnée, et si les données sont compatibles, l'crawler crée une table. La table comprend le schéma A:int,B:int,C:int,D:int
et partitionKey
year:string
.