Utilisation de cadres de lac de données avec des tâches AWS Glue ETL - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Utilisation de cadres de lac de données avec des tâches AWS Glue ETL

Les cadres de lac de données open source simplifient le traitement incrémentiel des fichiers que vous stockez dans les lacs de données créés sur Amazon S3. AWS Glue 3.0 et versions ultérieures prennent en charge les cadres de lac de données open source suivants :

  • Apache Hudi

  • Linux Foundation Delta Lake

  • Apache Iceberg

Nous fournissons une prise en charge native de ces cadres afin de vous permettre de lire et écrire les données à stocker dans Amazon S3 de manière cohérente sur le plan transactionnel. Il n'est pas nécessaire d'installer un connecteur distinct ou d'effectuer des étapes de configuration supplémentaires pour utiliser ces cadres dans les tâches AWS Glue ETL.

Lorsque vous gérez des jeux de données via AWS Glue Data Catalog, vous pouvez utiliser les méthodes AWS Glue pour lire et écrire dans les tables des lacs de données avec Spark DataFrames. Vous pouvez également lire et écrire des données Amazon S3 à l'aide de l'API Spark DataFrame.

Dans cette vidéo, vous découvrirez les principes de base du fonctionnement d'Apache Hudi, d'Apache Iceberg et de Delta Lake. Vous découvrirez comment insérer, mettre à jour et supprimer des données dans votre lac de données et comment chacun de ces cadres fonctionne.