AWS Glue Data Catalog - AWS Directives prescriptives

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

AWS Glue Data Catalog

AWS Glue Data CatalogIl s'agit d'un référentiel de métadonnées centralisé pour tous vos actifs de données provenant de différentes sources de données. Il fournit une interface unifiée pour stocker et interroger des informations sur les formats de données, les schémas et les sources. Lorsqu'une tâche AWS Glue ETL est exécutée, elle utilise ce catalogue pour comprendre les informations relatives aux données et s'assurer qu'elles sont correctement transformées.

AWS Glue Data CatalogIl est composé des composants suivants :

  • Bases de données et tables

  • crawlers et classifieurs

  • Connexions

  • Registre de schémas

AWS Glue bases de données et tables

AWS Glue Data CatalogIl est organisé en bases de données et en tables afin de fournir une structure logique pour le stockage et la gestion des métadonnées. Cette structure permet un contrôle précis de l'accès aux données au niveau d'une table ou d'une base de données en utilisant des politiques AWS Identity and Access Management (IAM).

Une AWS Glue base de données peut contenir de nombreuses tables, et chaque table doit être associée à une seule base de données. Ces tables contiennent des références aux données réelles, qui peuvent être stockées dans l'une des différentes sources de données prises AWS Glue en charge. AWS Glue les tables stockent également des métadonnées essentielles telles que les noms de colonnes, les types de données et les clés de partition.

Il existe différentes méthodes pour créer une table dans AWS Glue :

  • AWS Glue chenille

  • AWS Glue Tâche ETL

  • AWS Glue console

  • CreateTableopération dans l'AWS Glue API

  • AWS CloudFormation modèle

  • AWS Cloud Development Kit (AWS CDK)

  • Un métastore Apache Hive migré

AWS Glue chenilles et classificateurs

Un AWS Glue robot d'exploration découvre et extrait automatiquement les métadonnées d'un magasin de données, puis les met à jour AWS Glue Data Catalog en conséquence. Le robot d'exploration se connecte au magasin de données pour déduire le schéma des données. Il crée ou met ensuite à jour des tables dans le catalogue de données avec les informations de schéma qu'il a découvertes. Un analyseur peut analyser des magasins de données basés sur les fichiers et des magasins de données basées sur les tables. Pour en savoir plus sur les magasins de données pris en charge, voir Quels magasins de données puis-je explorer ?

Le robot utilise des classificateurs pour reconnaître avec précision le format des données et déterminer la manière dont elles doivent être traitées. Par défaut, le robot utilise un ensemble de classificateurs intégrés courants fournis par AWS Glue, mais vous pouvez également écrire des classificateurs personnalisés pour gérer des cas d'utilisation spécifiques.

AWS Glue connexions

Vous pouvez utiliser AWS Glue les connexions pour définir les paramètres de connexion qui permettent AWS Glue de se connecter à différentes sources de données. L'ajout de connexions centralise et simplifie la configuration requise pour se connecter à ces sources.

Lorsque vous définissez une connexion, vous spécifiez le type de connexion, le point de terminaison de la connexion et les informations d'identification requises. Une fois qu'une connexion est définie, elle peut être réutilisée par plusieurs AWS Glue jobs et robots d'exploration. L'utilisation de connexions avec AWS Glue réduit le besoin de saisir à plusieurs reprises les mêmes informations de connexion, telles que les identifiants de connexion ou les identifiants de cloud privé virtuel (VPC).

AWS Glue Registre des schémas

Le registre des AWS Glue schémas fournit un emplacement centralisé pour la gestion et l'application des schémas de flux de données. Il permet à des systèmes disparates, tels que les producteurs et les consommateurs de données, de partager un schéma de sérialisation et de désérialisation. Le partage d'un schéma permet à ces systèmes de communiquer efficacement et d'éviter les erreurs lors de la transformation.

Le registre des schémas garantit que les consommateurs de données en aval peuvent gérer les modifications apportées en amont, car ils connaissent le schéma attendu. Il prend en charge l'évolution du schéma, de sorte qu'un schéma peut changer au fil du temps tout en conservant la compatibilité avec les versions précédentes du schéma.

Le Schema Registry s'intègre à de nombreux AWS services, notamment Amazon Kinesis Data Streams, Firehose et Amazon Managed Streaming for Apache Kafka. Pour des exemples de cas d'utilisation et d'intégrations, consultez la section Intégration à AWS Glue Schema Registry.