Utilisation des frameworks Data Lake avec AWS Glue Studio

Mode de mise au point

Utilisation des frameworks Data Lake avec AWS Glue Studio - AWS Glue

Présentation Création de formats de tableau ouverts à partir d'une source de AWS Glue streaming

Présentation

Les frameworks de lacs de données open source simplifient le traitement incrémentiel des données pour les fichiers stockés dans des lacs de données basés sur Amazon S3. AWS Glue Les versions 3.0 et ultérieures prennent en charge les frameworks de stockage de lacs de données open source suivants :

Apache Hudi
Linux Foundation Delta Lake
Apache Iceberg

À compter du AWS Glue 4,0, AWS Glue fournit un support natif pour ces frameworks afin que vous puissiez lire et écrire les données que vous stockez dans Amazon S3 de manière cohérente sur le plan des transactions. Il n'est pas nécessaire d'installer un connecteur séparé ou d'effectuer des étapes de configuration supplémentaires pour utiliser ces frameworks dans AWS Glue emplois.

Les frameworks Data Lake peuvent être utilisés comme source ou cible dans AWS Glue Studio via les tâches de Spark Script Editor. Pour plus d'informations sur l'utilisation d'Apache Hudi, Apache Iceberg et Delta Lake, voir : Utilisation des frameworks de data lake avec AWS Glue Emplois ETL.

Création de formats de tableau ouverts à partir d'une source de AWS Glue streaming

AWS Glue les tâches ETL de streaming consomment en permanence des données provenant de sources de streaming, nettoient et transforment les données en vol, et les rendent disponibles pour analyse en quelques secondes.

AWS propose une large gamme de services pour répondre à vos besoins. Un service de réplication de base de AWS données tel que Database Migration Service peut répliquer les données de vos systèmes sources vers Amazon S3, qui héberge généralement la couche de stockage du lac de données. Bien qu'il soit simple d'appliquer des mises à jour à un système de gestion de base de données relationnelle (RDBMS) qui soutient une application source en ligne, il est difficile d'appliquer ce processus CDC à vos lacs de données. Les cadres de gestion de données open source simplifient le traitement incrémentiel des données et le développement de pipelines de données et constituent une bonne option pour résoudre ce problème.

Pour plus d’informations, consultez :

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Exemples de scripts visuels personnalisés

Utilisation du framework Hudi dans AWS Glue Studio

Sur cette page

Sélectionner vos préférences de cookies

Personnaliser les préférences de cookies

Essentiels

Performances

Fonctionnels

Publicitaires

Impossible d'enregistrer les préférences concernant les cookies

Utilisation des frameworks Data Lake avec AWS Glue Studio

Présentation

Création de formats de tableau ouverts à partir d'une source de AWS Glue streaming

Sur cette page

Related resources

Cette page vous a-t-elle été utile ?

Related resources

Rubrique suivante :

Rubrique précédente :

Avez-vous besoin d’aide ?