Uso de AWS Lake Formation con Amazon EMR - AWS Lake Formation

Uso de AWS Lake Formation con Amazon EMR

Amazon EMR es una plataforma de clústeres administrada de AWS flexible en la que puede ejecutar cualquier código personalizado en marcos de macrodatos compatibles, como Hadoop Map-Reduce, Spark, Hive, Presto, etc. Las organizaciones también utilizan Amazon EMR para ejecutar aplicaciones de procesamiento de datos por lotes y en streaming en un clúster altamente distribuido. Si utiliza Apache Spark en Amazon EMR, puede ejecutar sus transformaciones de datos y código personalizado en bases de datos y tablas cuyos permisos administre Lake Formation.

Hay tres opciones para implementar Amazon EMR:

  • EMR en EC2

  • EMR sin servidor

  • Amazon EMR en EKS

Para obtener más información, consulte Integrar Amazon EMR con Lake Formation o Using EMR Serverless witn AWS Lake Formation for fine-grained access control

Compatibilidad con formatos de tablas transaccionales

Las versiones 6.15.0 y posteriores de Amazon EMR incluyen compatibilidad con los permisos de control de acceso a nivel de tabla, fila, columna y celda de Lake Formation en los formatos de tabla Apache Hudi, Apache Iceberg y Delta Lake al leer y escribir datos con Spark SQL.

Para conocer las limitaciones, consulte Consideraciones sobre Amazon EMR con Lake Formation.

Formatos de tabla compatibles
Formato de tabla Descripción y operaciones permitidas Permisos de Lake Formation admitidos en Amazon EMR

Apache Hudi

Formato de tabla abierta para simplificar el procesamiento incremental de datos y el desarrollo de canalizaciones de datos.

Para obtener una lista de las operaciones compatibles, consulte Apache Hudi y Lake Formation.

Amazon EMR es compatible con el control de acceso a nivel de tabla, fila, columna y celda con Apache Hudi.

Apache Iceberg

Formato de tabla abierta que gestiona grandes colecciones de archivos como tablas.

Para obtener una lista de las operaciones compatibles, consulte Apache Iceberg y Lake Formation.

Amazon EMR es compatible con el control de acceso a nivel de tabla, fila, columna y celda con Apache Iceberg.

Linux Foundation Delta Lake

Delta Lake es un proyecto de código abierto que ayuda a implementar arquitecturas de lago de datos modernos comúnmente construidas sobre Amazon S3 o Sistema de archivos distribuido de Hadoop (HDFS).

Para obtener una lista de las operaciones compatibles, consulte Delta Lake y Lake Formation.

Amazon EMR permite el control de acceso de nivel de tabla, fila, columna y celda con tablas de Delta Lake.

Recursos adicionales de