AWS Systèmes de type Glue

Mode de mise au point

AWS Systèmes de type Glue - AWS Glue

AWS Types de catalogues de données Glue Types dans les scripts AWS Glue with Spark AWS Types de Glue Crawler

AWS Glue utilise plusieurs types de systèmes pour fournir une interface polyvalente sur des systèmes de données qui stockent les données de manières très différentes. Ce document met fin à l'ambiguïté des systèmes de type AWS Glue et des normes de données.

AWS Types de catalogues de données Glue

Le catalogue de données est un metastore, un registre de tables et de champs stockés dans divers systèmes de données. Lorsque les composants AWS Glue, tels que les robots AWS Glue et les tâches AWS Glue with Spark, écrivent dans le catalogue de données, ils le font à l'aide d'un système de typage interne permettant de suivre les types de champs. Ces valeurs sont affichées dans la colonne Type de données du schéma de table de la console AWS Glue. Ce système de types est basé sur le système de types d'Apache Hive. Pour plus d'informations sur le système de types Apache Hive, veuillez consulter la rubrique Types du wiki Apache Hive. Pour plus d'informations sur les types spécifiques et leur support, des exemples sont fournis dans la console AWS Glue, dans le cadre du Schema Builder.

Validation, compatibilité et autres utilisations

Le catalogue de données ne valide pas les types écrits dans des champs de type. Lorsque les composants de AWS Glue lisent et écrivent dans le catalogue de données, ils sont compatibles entre eux. AWS Les composants Glue visent également à préserver un haut degré de compatibilité avec les types Hive. Cependant, les composants AWS Glue ne garantissent pas la compatibilité avec tous les types de Hive. Cela permet l'interopérabilité avec des outils tels que les DDL Athena lorsque vous utilisez des tables dans le catalogue de données.

Le catalogue de données ne validant pas les types, d'autres services peuvent utiliser le catalogue de données pour suivre les types à l'aide de systèmes strictement conformes au système de types Hive ou à tout autre système.

Types dans les scripts AWS Glue with Spark

Lorsqu'un script AWS Glue with Spark interprète ou transforme un ensemble de données, nous fournissons DynamicFrame une représentation en mémoire de votre ensemble de données tel qu'il est utilisé dans votre script. L'objectif d'un DynamicFrame est similaire à celui du DataFrame Spark : il modélise votre jeu de données afin que Spark puisse planifier et exécuter des transformations sur vos données. Nous garantissons que la représentation du type de DynamicFrame est compatible avec un DataFrame en fournissant les méthodes toDF et fromDF.

Si les informations de type peuvent être déduites ou fournies à un DataFrame, elles peuvent être déduites ou fournies à un DynamicFrame, sauf indication contraire. Lorsque nous fournissons des lecteurs ou des rédacteurs optimisés pour des formats de données spécifiques, si Spark peut lire ou écrire vos données, les lecteurs et rédacteurs pourront le faire également, sous réserve de restrictions documentées. Pour plus d'informations sur les lecteurs et les rédacteurs, veuillez consulter la rubrique Options de format de données pour les entrées et les sorties dans AWS Glue pour Spark.

Le type de choix

Les DynamicFrames fournissent un mécanisme pour modéliser les champs d'un jeu de données dont les valeurs peuvent présenter des types incohérents sur le disque entre les lignes. Par exemple, un champ peut contenir un nombre stocké sous forme de chaîne dans certaines lignes et un entier dans d'autres. Ce mécanisme est un type en mémoire appelé Choice. Nous proposons des transformations, telles que la ResolveChoice méthode, pour résoudre les colonnes Choice en un type concret. AWS Glue ETL n'écrit pas le type Choice dans le catalogue de données dans le cours normal des opérations ; les types Choice n'existent que dans le contexte des modèles de DynamicFrame mémoire des ensembles de données. Pour un exemple d'utilisation du type de choix, veuillez consulter la rubrique Exemple de code : préparation des données à l'aide ResolveChoice de Lambda et ApplyMapping.

AWS Types de Glue Crawler

Les crawlers visent à produire un schéma cohérent et utilisable pour votre ensemble de données, puis à le stocker dans Data Catalog pour l'utiliser dans d'autres composants de AWS Glue et Athena. Les crawlers traitent les types comme indiqué dans la section précédente du catalogue de données, AWS Types de catalogues de données Glue. Pour produire un type utilisable dans les scénarios de type « choix », où une colonne contient des valeurs de deux types ou plus, les Crawlers créeront un type struct qui modélise les types potentiels.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Conversion de schémas semi-structurés en schémas relationnels

Premiers pas

Rubrique suivante :

Premiers pas

Rubrique précédente :

Conversion de schémas semi-structurés en schémas relationnels

Avez-vous besoin d’aide ?

Sur cette page

Sélectionner vos préférences de cookies

Personnaliser les préférences de cookies

Essentiels

Performances

Fonctionnels

Publicitaires

Impossible d'enregistrer les préférences concernant les cookies