Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Présentation
Les frameworks de lacs de données open source simplifient le traitement incrémentiel des données pour les fichiers stockés dans des lacs de données basés sur Amazon S3. AWS Glue Les versions 3.0 et ultérieures prennent en charge les frameworks de stockage de lacs de données open source suivants :
-
Apache Hudi
-
Linux Foundation Delta Lake
-
Apache Iceberg
À compter du AWS Glue 4,0, AWS Glue fournit un support natif pour ces frameworks afin que vous puissiez lire et écrire les données que vous stockez dans Amazon S3 de manière cohérente sur le plan des transactions. Il n'est pas nécessaire d'installer un connecteur séparé ou d'effectuer des étapes de configuration supplémentaires pour utiliser ces frameworks dans AWS Glue emplois.
Les frameworks Data Lake peuvent être utilisés comme source ou cible dans AWS Glue Studio via les tâches de Spark Script Editor. Pour plus d'informations sur l'utilisation d'Apache Hudi, Apache Iceberg et Delta Lake, voir : Utilisation des frameworks de data lake avec AWS Glue Emplois ETL.
Création de formats de tableau ouverts à partir d'une source de AWS Glue streaming
AWS Glue les tâches ETL de streaming consomment en permanence des données provenant de sources de streaming, nettoient et transforment les données en vol, et les rendent disponibles pour analyse en quelques secondes.
AWS propose une large gamme de services pour répondre à vos besoins. Un service de réplication de base de AWS données tel que Database Migration Service peut répliquer les données de vos systèmes sources vers Amazon S3, qui héberge généralement la couche de stockage du lac de données. Bien qu'il soit simple d'appliquer des mises à jour à un système de gestion de base de données relationnelle (RDBMS) qui soutient une application source en ligne, il est difficile d'appliquer ce processus CDC à vos lacs de données. Les cadres de gestion de données open source simplifient le traitement incrémentiel des données et le développement de pipelines de données et constituent une bonne option pour résoudre ce problème.
Pour plus d’informations, consultez :