Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Consideraciones y limitaciones
Tenga en cuenta las siguientes consideraciones y limitaciones cuando utilice Lake Formation con EMR Serverless.
nota
Cuando habilitas Lake Formation para un trabajo de Spark en EMR Serverless, el trabajo lanza un controlador de sistema y un controlador de usuario. Si especificaste la capacidad preinicializada en el momento del lanzamiento, los controladores se aprovisionarán a partir de la capacidad preinicializada y el número de controladores del sistema será igual al número de controladores de usuario que especifiques. Si elige la capacidad bajo demanda, EMR Serverless lanza un controlador de sistema además de un controlador de usuario. Para estimar los costos asociados a su trabajo EMR sin servidor con Lake Formation, utilice el AWS Pricing Calculator
Amazon EMR Serverless with Lake Formation está disponible en todas las regiones EMR sin servidor compatibles, excepto AWS GovCloud (EE. UU. este) y AWS GovCloud (EE. UU. oeste).
-
Amazon EMR Serverless admite un control de acceso detallado a través de Lake Formation solo para las tablas Apache Hive y Apache Iceberg. Los formatos de Apache Hive incluyen Parquet y xSv. ORC
-
Las aplicaciones habilitadas para Lake Formation no admiten el uso de imágenes personalizadas EMR sin servidor.
-
No puedes dejar de trabajar
DynamicResourceAllocation
en Lake Formation. -
Solo puedes usar Lake Formation con trabajos de Spark.
-
EMRServerless with Lake Formation solo admite una sesión de Spark durante un trabajo.
-
EMRServerless with Lake Formation solo admite consultas de tablas entre cuentas compartidas a través de enlaces de recursos.
-
No se admite lo siguiente:
-
Conjuntos de datos distribuidos resilientes () RDD
-
Transmisión de Spark
-
Permisos concedidos a Write with Lake Formation
-
Control de acceso para columnas anidadas
-
-
EMRServerless bloquea las funcionalidades que podrían socavar el aislamiento total del controlador del sistema, incluidas las siguientes:
-
UDTsiveUDFs, H y cualquier función definida por el usuario que incluya clases personalizadas
-
Orígenes de datos personalizados
-
Suministro de tarros adicionales para la extensión, el conector o el metastore de Spark
-
ANALYZE TABLE
command
-
-
Para hacer cumplir los controles de acceso
EXPLAIN PLAN
y DDL las operaciones, comoDESCRIBE TABLE
no exponer información restringida. -
EMRServerless restringe el acceso a los registros de Spark del controlador del sistema en las aplicaciones habilitadas para Lake Formation. Dado que el controlador del sistema se ejecuta con más acceso, los eventos y registros que genera el controlador del sistema pueden incluir información confidencial. Para evitar que usuarios o códigos no autorizados accedan a estos datos confidenciales, EMR Serverless deshabilitó el acceso a los registros de los controladores del sistema. Para solucionar problemas, ponte en contacto con el servicio de AWS asistencia.
-
Si ha registrado una ubicación de tabla en Lake Formation, la ruta de acceso a los datos pasa por las credenciales almacenadas de Lake Formation, independientemente del IAM permiso para el rol de ejecución de tareas EMR sin servidor. Si configura mal el rol registrado con la ubicación de la tabla, se producirá un error en los trabajos que se envíen en los que se utilice el rol con IAM permiso de S3 para la ubicación de la tabla.
-
Escribir en una tabla de Lake Formation utiliza IAM permisos en lugar de los permisos concedidos por Lake Formation. Si el rol de ejecución de su trabajo tiene los permisos de S3 necesarios, puede usarlo para ejecutar operaciones de escritura.
Las siguientes son consideraciones y limitaciones al usar Apache Iceberg:
-
Solo puede usar Apache Iceberg con el catálogo de sesiones y no con catálogos con nombres arbitrarios.
-
Las tablas de iceberg que están registradas en Lake Formation solo admiten las tablas de metadatos
history
metadata_log_entries
,snapshots
,,files
manifests
, yrefs
. Amazon EMR oculta las columnas que pueden contener datos confidenciales, comopartitions
path
, ysummaries
. Esta limitación no se aplica a las tablas de iceberg que no estén registradas en Lake Formation. -
Las tablas que no se registran en Lake Formation admiten todos los procedimientos almacenados de Iceberg. Los
migrate
procedimientosregister_table
y no son compatibles con ninguna tabla. -
Le recomendamos que utilice Iceberg DataFrameWriter V2 en lugar de V1.