Uso de AWS Lake Formation con Amazon EMR
Amazon EMR es una plataforma de clústeres administrada de AWS flexible en la que puede ejecutar cualquier código personalizado en marcos de macrodatos compatibles, como Hadoop Map-Reduce, Spark, Hive, Presto, etc. Las organizaciones también utilizan Amazon EMR para ejecutar aplicaciones de procesamiento de datos por lotes y en streaming en un clúster altamente distribuido. Si utiliza Apache Spark en Amazon EMR, puede ejecutar sus transformaciones de datos y código personalizado en bases de datos y tablas cuyos permisos administre Lake Formation.
Hay tres opciones para implementar Amazon EMR:
-
EMR en EC2
-
EMR sin servidor
-
Amazon EMR en EKS
Para obtener más información, consulte Integrar Amazon EMR con Lake Formation o Using EMR Serverless witn AWS Lake Formation for fine-grained access control
Compatibilidad con formatos de tablas transaccionales
Las versiones 6.15.0 y posteriores de Amazon EMR incluyen compatibilidad con los permisos de control de acceso a nivel de tabla, fila, columna y celda de Lake Formation en los formatos de tabla Apache Hudi, Apache Iceberg y Delta Lake
Para conocer las limitaciones, consulte Consideraciones sobre Amazon EMR con Lake Formation.
Formato de tabla | Descripción y operaciones permitidas | Permisos de Lake Formation admitidos en Amazon EMR |
---|---|---|
Apache Hudi |
Formato de tabla abierta para simplificar el procesamiento incremental de datos y el desarrollo de canalizaciones de datos. Para obtener una lista de las operaciones compatibles, consulte Apache Hudi y Lake Formation. |
Amazon EMR es compatible con el control de acceso a nivel de tabla, fila, columna y celda con Apache Hudi. |
Apache Iceberg |
Formato de tabla abierta que gestiona grandes colecciones de archivos como tablas. Para obtener una lista de las operaciones compatibles, consulte Apache Iceberg y Lake Formation. |
Amazon EMR es compatible con el control de acceso a nivel de tabla, fila, columna y celda con Apache Iceberg. |
Linux Foundation Delta Lake |
Delta Lake es un proyecto de código abierto que ayuda a implementar arquitecturas de lago de datos modernos comúnmente construidas sobre Amazon S3 o Sistema de archivos distribuido de Hadoop (HDFS). Para obtener una lista de las operaciones compatibles, consulte Delta Lake y Lake Formation. |
Amazon EMR permite el control de acceso de nivel de tabla, fila, columna y celda con tablas de Delta Lake. |