Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Utilizzo di framework data lake con processi ETL di AWS Glue
I framework data lake open source semplificano l'elaborazione incrementale dei dati per i file archiviati in data lake basati su Amazon S3. AWS Glue 3.0 e versioni successive supportano i seguenti framework data lake open source:
-
Apache Hudi
-
Linux Foundation Delta Lake
-
Apache Iceberg
Forniamo supporto nativo per questi framework in modo che sia possibile leggere e scrivere i dati archiviati in Amazon S3 in modo coerente dal punto di vista transazionale. Non è necessario installare un connettore separato o completare passaggi di configurazione aggiuntivi per utilizzare questi framework nei processi ETL di AWS Glue.
Quando gestisci i set di dati tramite AWS Glue Data Catalog, puoi utilizzare i metodi AWS Glue per leggere e scrivere tabelle di data lake con Spark DataFrames. È possibile leggere e scrivere dati Amazon S3 anche utilizzando l'API Spark DataFrame.
Questo video illustra le basi del funzionamento di Apache Hudi, Apache Iceberg e Delta Lake. Scoprirai come inserire, aggiornare ed eliminare i dati nel tuo data lake e come funziona ciascuno di questi framework.