Utilizzo di framework data lake con processi ETL di AWS Glue

I framework data lake open source semplificano l'elaborazione incrementale dei dati per i file archiviati in data lake basati su Amazon S3. AWS Glue 3.0 e versioni successive supportano i seguenti framework data lake open source:

Apache Hudi
Linux Foundation Delta Lake
Apache Iceberg

Forniamo supporto nativo per questi framework in modo che sia possibile leggere e scrivere i dati archiviati in Amazon S3 in modo coerente dal punto di vista transazionale. Non è necessario installare un connettore separato o completare passaggi di configurazione aggiuntivi per utilizzare questi framework nei processi ETL di AWS Glue.

Quando gestisci i set di dati tramite AWS Glue Data Catalog, puoi utilizzare i metodi AWS Glue per leggere e scrivere tabelle di data lake con Spark DataFrames. È possibile leggere e scrivere dati Amazon S3 anche utilizzando l'API Spark DataFrame.

Questo video illustra le basi del funzionamento di Apache Hudi, Apache Iceberg e Delta Lake. Scoprirai come inserire, aggiornare ed eliminare i dati nel tuo data lake e come funziona ciascuno di questi framework.

Argomenti

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

ORC

Limitazioni