Sélectionner vos préférences de cookies

Nous utilisons des cookies essentiels et des outils similaires qui sont nécessaires au fonctionnement de notre site et à la fourniture de nos services. Nous utilisons des cookies de performance pour collecter des statistiques anonymes afin de comprendre comment les clients utilisent notre site et d’apporter des améliorations. Les cookies essentiels ne peuvent pas être désactivés, mais vous pouvez cliquer sur « Personnaliser » ou « Refuser » pour refuser les cookies de performance.

Si vous êtes d’accord, AWS et les tiers approuvés utiliseront également des cookies pour fournir des fonctionnalités utiles au site, mémoriser vos préférences et afficher du contenu pertinent, y compris des publicités pertinentes. Pour accepter ou refuser tous les cookies non essentiels, cliquez sur « Accepter » ou « Refuser ». Pour effectuer des choix plus détaillés, cliquez sur « Personnaliser ».

Utilisation des frameworks Data Lake avec AWS Glue Studio

Mode de mise au point
Utilisation des frameworks Data Lake avec AWS Glue Studio - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Présentation

Les frameworks de lacs de données open source simplifient le traitement incrémentiel des données pour les fichiers stockés dans des lacs de données basés sur Amazon S3. AWS Glue Les versions 3.0 et ultérieures prennent en charge les frameworks de stockage de lacs de données open source suivants :

  • Apache Hudi

  • Linux Foundation Delta Lake

  • Apache Iceberg

À compter du AWS Glue 4,0, AWS Glue fournit un support natif pour ces frameworks afin que vous puissiez lire et écrire les données que vous stockez dans Amazon S3 de manière cohérente sur le plan des transactions. Il n'est pas nécessaire d'installer un connecteur séparé ou d'effectuer des étapes de configuration supplémentaires pour utiliser ces frameworks dans AWS Glue emplois.

Les frameworks Data Lake peuvent être utilisés comme source ou cible dans AWS Glue Studio via les tâches de Spark Script Editor. Pour plus d'informations sur l'utilisation d'Apache Hudi, Apache Iceberg et Delta Lake, voir : Utilisation des frameworks de data lake avec AWS Glue Emplois ETL.

Création de formats de tableau ouverts à partir d'une source de AWS Glue streaming

AWS Glue les tâches ETL de streaming consomment en permanence des données provenant de sources de streaming, nettoient et transforment les données en vol, et les rendent disponibles pour analyse en quelques secondes.

AWS propose une large gamme de services pour répondre à vos besoins. Un service de réplication de base de AWS données tel que Database Migration Service peut répliquer les données de vos systèmes sources vers Amazon S3, qui héberge généralement la couche de stockage du lac de données. Bien qu'il soit simple d'appliquer des mises à jour à un système de gestion de base de données relationnelle (RDBMS) qui soutient une application source en ligne, il est difficile d'appliquer ce processus CDC à vos lacs de données. Les cadres de gestion de données open source simplifient le traitement incrémentiel des données et le développement de pipelines de données et constituent une bonne option pour résoudre ce problème.

Pour plus d’informations, consultez :

ConfidentialitéConditions d'utilisation du sitePréférences de cookies
© 2025, Amazon Web Services, Inc. ou ses affiliés. Tous droits réservés.