Uso AWS Lake Formation con Amazon EMR - AWS Lake Formation

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Uso AWS Lake Formation con Amazon EMR

Amazon EMR es una plataforma flexible de clústeres AWS gestionados en la que puede ejecutar cualquier código personalizado en marcos de big data compatibles, como Hadoop Map-Reduce, Spark, Hive, Presto, etc. Las organizaciones también utilizan Amazon EMR para ejecutar aplicaciones de procesamiento de datos por lotes y en streaming en un clúster altamente distribuido. Con Apache Spark en AmazonEMR, puede ejecutar sus transformaciones de datos y código personalizado en bases de datos y tablas cuyos permisos administra Lake Formation.

Existen tres opciones para implementar AmazonEMR:

  • EMRen EC2

  • EMRSin servidor

  • Amazon EMR en EKS

Para obtener más información, consulte Integrar Amazon EMR con Lake Formation o Using EMR Serverless with AWS Lake Formation para obtener un control de acceso detallado

Compatibilidad con formatos de tablas transaccionales

Las EMR versiones 6.15.0 y posteriores de Amazon incluyen compatibilidad con los permisos de control de acceso a nivel de tabla, fila, columna y celda de Lake Formation en los formatos de tabla Apache Hudi, Apache Iceberg y Delta Lake al leer y escribir datos con Spark. SQL

Para conocer las limitaciones, consulte Considerations for Amazon EMR with Lake Formation.

Formatos de tabla compatibles
Formato de tabla Descripción y operaciones permitidas Amazon admite los permisos de Lake Formation EMR

Apache Hudi

Formato de tabla abierta para simplificar el procesamiento incremental de datos y el desarrollo de canalizaciones de datos.

Para obtener una lista de las operaciones compatibles, consulte Apache Hudi y Lake Formation.

Amazon EMR admite el control de acceso a nivel de tabla, fila, columna y celda con Apache Hudi.

Apache Iceberg

Formato de tabla abierta que gestiona grandes colecciones de archivos como tablas.

Para obtener una lista de las operaciones compatibles, consulte Apache Iceberg y Lake Formation.

Amazon EMR admite el control de acceso a nivel de tabla, fila, columna y celda con Apache Iceberg.

Linux Foundation Delta Lake

Delta Lake es un proyecto de código abierto que ayuda a implementar arquitecturas de lagos de datos modernas que se suelen crear en Amazon S3 o Hadoop Distributed File System (). HDFS

Para obtener una lista de las operaciones compatibles, consulte Delta Lake y Lake Formation.

Amazon EMR admite el control de acceso a nivel de tabla, fila, columna y celda con las tablas de Delta Lake.

Recursos adicionales de