Información general
Los marcos de lago de datos de código abierto simplifican el procesamiento progresivo de datos para los archivos almacenados en lagos de datos creados en Amazon S3. La versión 3.0 y versiones posteriores de AWS Glue admiten los siguientes marcos de almacenamiento de lagos de datos de código abierto:
-
Apache Hudi
-
Linux Foundation Delta Lake
-
Apache Iceberg
A partir de la versión de AWS Glue 4.0, AWS Glue proporciona compatibilidad nativa con estos marcos para que pueda leer y escribir los datos que almacene en Amazon S3 de una manera consistente entre transacciones. No es necesario instalar ningún conector independiente ni completar pasos de configuración adicionales para utilizar estos marcos en trabajos de AWS Glue.
Los marcos de lagos de datos se pueden utilizar como origen o destino en AWS Glue Studio a través de trabajos del editor de scripts de Spark. Para obtener más información sobre el uso de Apache Hudi, Apache Iceberg y Delta Lake, consulte Uso de marcos de lagos de datos con trabajos de ETL de AWS Glue.
Creación de formatos de tabla abiertos a partir de un origen de streaming de AWS Glue
Los trabajos ETL en streaming de AWS Glue consumen continuamente datos de los orígenes de streaming, los limpian y transforman durante el tránsito y los ponen a disposición para su análisis en cuestión de segundos.
AWS ofrece una amplia selección de servicios para satisfacer sus necesidades. Un servicio de replicación de bases de datos, como AWS Database Migration Service, puede replicar los datos de sus sistemas de origen a Amazon S3, que normalmente aloja la capa de almacenamiento del lago de datos. Si bien es sencillo aplicar las actualizaciones en un sistema de administración de base de datos relacional (RDBMS) que respalda una aplicación de origen en línea, es difícil aplicar este proceso de CDC en sus lagos de datos. Los marcos de administración de datos de código abierto simplifican el procesamiento progresivo de datos y el desarrollo de canalizaciones de datos, y son una buena opción para resolver este problema.
Para obtener más información, consulte: