Découverte et catalogage des données dans AWS Glue

AWS Glue Data Catalog Il s'agit d'un référentiel centralisé qui stocke les métadonnées relatives aux ensembles de données de votre organisation. Il agit comme un index de l'emplacement, du schéma et des mesures d'exécution de vos sources de données. Les métadonnées sont stockées dans des tables de métadonnées, où chaque table représente un magasin de données unique.

Vous pouvez remplir le catalogue de données à l'aide d'un robot d'exploration, qui analyse automatiquement vos sources de données et extrait les métadonnées. Un robot d'exploration peut se connecter à des sources de données internes (AWS basées) et externes à AWS.

Pour plus d'informations sur les sources de données prises en charge, voir Sources de données prises en charge pour l'exploration

Vous pouvez également créer des tables manuellement dans le catalogue de données en définissant la structure des tables, le schéma et la structure de partitionnement en fonction de vos besoins spécifiques.

Pour plus d'informations sur la création manuelle de tables de métadonnées, consultezDéfinition manuelle des métadonnées.

Vous pouvez utiliser les informations du catalogue de données pour créer et surveiller vos tâches ETL. Le catalogue de données s'intègre à d'autres services d' AWS analyse, fournissant une vue unifiée des sources de données, ce qui facilite la gestion et l'analyse des données.

Amazon Athena — Stockez et interrogez les métadonnées des tables dans le catalogue de données pour les données Amazon S3 à l'aide de SQL.
AWS Lake Formation — Définissez et gérez de manière centralisée des politiques d'accès aux données précises et auditez l'accès aux données.
Amazon EMR — Accédez aux sources de données définies dans le catalogue de données pour le traitement des mégadonnées.
Amazon SageMaker AI — Créez, formez et déployez des modèles d'apprentissage automatique rapidement et en toute confiance.

Principales fonctionnalités du catalogue de données

Les principaux aspects du catalogue de données sont les suivants.

Référentiel de métadonnées

Le catalogue de données agit comme un référentiel de métadonnées central, stockant des informations sur l'emplacement, le schéma et les propriétés de vos sources de données. Ces métadonnées sont organisées en bases de données et en tables, comme dans un catalogue de base de données relationnelle traditionnel.

Découverte automatique des données

AWS Glue crawler s peut automatiquement découvrir et cataloguer des sources de données nouvelles ou mises à jour, réduisant ainsi la charge de travail liée à la gestion manuelle des métadonnées et garantissant la pérennité de votre catalogue de données up-to-date. En cataloguant vos sources de données, le catalogue de données permet aux utilisateurs et aux applications de découvrir et de comprendre plus facilement les actifs de données disponibles au sein de votre organisation, favorisant ainsi la réutilisation des données et la collaboration.

Le catalogue de données prend en charge un large éventail de sources de données, notamment Amazon S3, Amazon RDS, Amazon Redshift, Apache Hive, etc. Il peut automatiquement déduire et stocker les métadonnées de ces sources à l'aide de AWS Glue crawler s.

Pour plus d'informations, veuillez consulter Utilisation de robots pour alimenter le catalogue de données .

Gestion des schémas

Le catalogue de données capture et gère automatiquement le schéma de vos sources de données, y compris l'inférence, l'évolution et le versionnement des schémas. Vous pouvez mettre à jour votre schéma et vos partitions dans le catalogue de données à l'aide de tâches AWS Glue ETL.

Optimisation des tables

Pour améliorer les performances de lecture des services AWS d'analyse tels qu'Amazon Athena et Amazon EMR, ainsi que pour les tâches AWS Glue ETL, le catalogue de données fournit un compactage géré (un processus qui compacte de petits objets Amazon S3 en objets plus grands) pour les tables Iceberg du catalogue de données. Vous pouvez utiliser une AWS Glue console, une AWS Lake Formation console ou une AWS API pour activer ou désactiver le compactage de tables Iceberg individuelles figurant dans le catalogue de données. AWS CLI

Pour plus d’informations, consultez Optimisation des tables Iceberg.

Statistiques de colonne

Vous pouvez calculer des statistiques au niveau des colonnes pour les tables du catalogue de données dans des formats de données tels que Parquet, ORC, JSON, ION, CSV et XML sans configurer de pipelines de données supplémentaires. Les statistiques de colonne vous aident à comprendre les profils de données en obtenant des informations sur les valeurs d'une colonne. Le catalogue de données permet de générer des statistiques pour les valeurs de colonne telles que la valeur minimale, la valeur maximale, le total des valeurs nulles, le total des valeurs distinctes, la longueur moyenne des valeurs et le nombre total d'occurrences de valeurs vraies.

Pour plus d’informations, consultez Optimisation des performances des requêtes à l'aide des statistiques des colonnes.

Lignage des données

Le catalogue de données conserve un enregistrement des transformations et des opérations effectuées sur vos données, fournissant des informations sur le lignage des données. Ces informations de traçabilité sont précieuses pour l'audit, la conformité et la compréhension de la provenance des données.

Intégration avec d'autres AWS services

Le catalogue de données s'intègre parfaitement à d'autres AWS services AWS Lake Formation, tels qu'Amazon Athena, Amazon Redshift Spectrum et Amazon EMR. Cette intégration vous permet d'interroger et d'analyser des données dans différents magasins de données à l'aide d'une couche de métadonnées unique et cohérente.

Sécurité et contrôle d'accès

AWS Glue s'intègre AWS Lake Formation pour prendre en charge un contrôle d'accès précis aux ressources du catalogue de données, ce qui vous permet de gérer les autorisations et de sécuriser l'accès à vos actifs de données en fonction des politiques et des exigences de votre organisation. AWS Glue s'intègre à AWS Key Management Service (AWS KMS) pour chiffrer les métadonnées stockées dans le catalogue de données.

Rubriques

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Configuration du réseau pour le développement

Remplissage du catalogue de données