EMRCaracterísticas, requisitos y límites de Studio - Amazon EMR

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

EMRCaracterísticas, requisitos y límites de Studio

En este tema se incluyen aspectos que se deben tener en cuenta al trabajar con Amazon EMR Studio, incluidas consideraciones sobre las regiones y las herramientas, los requisitos del clúster y las limitaciones técnicas.

Consideraciones

Tenga en cuenta lo siguiente cuando trabaje con EMR Studio:

  • EMRStudio está disponible en las siguientes versiones Regiones de AWS:

    • Este de EE. UU. (Ohio) (us-east-2)

    • Este de EE. UU. (Norte de Virginia) (us-east-1)

    • EE. UU. Oeste (Norte de California) (us-west-1)

    • Oeste de EE. UU. (Oregón) (us-west-2)

    • África (Ciudad del Cabo) (af-south-1)

    • Asia-Pacífico (Hong Kong) (ap-east-1)

    • Asia Pacífico (Yakarta) (ap-southeast-3) *

    • Asia Pacífico (Melbourne) (ap-southeast-4) *

    • Asia Pacífico (Bombay) (ap-south-1)

    • Asia-Pacífico (Osaka) (ap-northeast-3) *

    • Asia-Pacífico (Seúl) (ap-northeast-2)

    • Asia-Pacífico (Singapur) (ap-southeast-1)

    • Asia-Pacífico (Sídney) (ap-southeast-2)

    • Asia-Pacífico (Tokio) (ap-northeast-1)

    • Canadá (centro) (ca-central-1)

    • Europa (Fráncfort) (eu-central-1)

    • Europa (Irlanda) (eu-west-1)

    • Europa (Londres) (eu-west-2)

    • UE (Milán) (eu-south-1)

    • UE (París) (eu-west-3)

    • Europa (España) (eu-south-2)

    • Europa (Estocolmo) (eu-north-1)

    • Europa (Zúrich) (eu-central-2) *

    • Israel (Tel Aviv) (il-central-1)*

    • Oriente Medio (UAE) (me-central-1) *

    • América del Sur (São Paulo) (sa-east-1)

    • AWS GovCloud (EEUU-Este) (-1) gov-us-east

    • AWS GovCloud (EEUU-Oeste) (gov-us-west-1)

    * La interfaz de usuario de Spark en vivo no es compatible en estas regiones.

  • Para permitir a los usuarios aprovisionar nuevos EMR clústeres que se ejecuten en Amazon EC2 para un espacio de trabajo, puedes asociar un EMR Studio a un conjunto de plantillas de clústeres. Los administradores pueden definir plantillas de clúster con Service Catalog y elegir si un usuario o un grupo puede acceder a las plantillas de clúster o a ninguna dentro del estudio.

  • Cuando defina los permisos de acceso a los archivos de bloc de notas almacenados en Amazon S3 o de los que lee secretos AWS Secrets Manager, utilice el rol de EMR servicio de Amazon. Estos permisos no admiten políticas de sesión.

  • Puede crear varios EMR estudios para controlar el acceso a EMR clústeres en diferentes clústeresVPCs.

  • Usa el AWS CLI para configurar Amazon EMR en EKS clústeres. A continuación, puede utilizar la interfaz de Studio para asociar clústeres a los espacios de trabajo con un punto de conexión administrado para ejecutar trabajos de cuaderno.

  • Al utilizar la propagación de identidades de confianza con Amazon, hay consideraciones adicionales EMR que también se aplican a EMR Studio. Para obtener más información, consulte Consideraciones y limitaciones de la integración de Amazon EMR con Identity Center.

  • EMRStudio no admite los siguientes comandos mágicos de Python:

    • %alias

    • %alias_magic

    • %automagic

    • %macro

    • %%js

    • %%javascript

    • Modificar proxy_user mediante %configure

    • Modificar KERNEL_USERNAME mediante %env o %set_env

  • Amazon EMR on EKS clusters no admite SparkMagic comandos para EMR Studio.

  • Para escribir instrucciones de Scala de varias líneas en celdas de cuadernos, asegúrese de que todas las líneas, excepto la última, terminen con un punto. En el siguiente ejemplo, se utiliza la sintaxis correcta para las instrucciones de Scala de varias líneas.

    val df = spark.sql("SELECT * from table_name). filter("col1=='value'"). limit(50)
  • Para aumentar la seguridad de las aplicaciones fuera de la consola que puedas utilizar con AmazonEMR, los dominios de alojamiento de aplicaciones se registran en la lista de sufijos públicos (). PSL Algunos ejemplos de estos dominios de alojamiento son los siguientes: emrstudio-prod.us-east-1.amazonaws.com, emrnotebooks-prod.us-east-1.amazonaws.com, emrappui-prod.us-east-1.amazonaws.com. Para mayor seguridad, si necesita configurar cookies confidenciales en el nombre de dominio predeterminado, le recomendamos que utilice cookies con el prefijo __Host-. Esto ayuda a proteger tu dominio de los intentos de falsificación de solicitudes entre sitios (). CSRF Para obtener más información, consulte la .Set-Cookiepágina de la red de desarrolladores de Mozilla.

Problemas conocidos

  • Un EMR estudio que utilice IAM Identity Center con la propagación de identidades fiable habilitada solo podrá asociarse con EMR clústeres que también utilicen la propagación de identidades fiable.

  • Asegúrese de desactivar las herramientas de administración de proxy, como FoxyProxy o SwitchyOmega en el navegador antes de crear un Studio. Los proxies activos pueden provocar errores al seleccionar Crear estudio y pueden generar un mensaje de error de red.

  • Los núcleos que se ejecutan en Amazon EMR en EKS clústeres pueden no iniciarse debido a problemas de tiempo de espera. Si se produce un error o un problema al iniciar el kernel, cierre el archivo del cuaderno, apague el kernel y vuelva a abrir el archivo del cuaderno.

  • La operación de reinicio del núcleo no funciona como se esperaba cuando utilizas un EKS clúster EMR de Amazon. Tras seleccionar Reiniciar el kernel, actualice el espacio de trabajo para que el reinicio surta efecto.

  • Si un espacio de trabajo no está conectado a un clúster, aparece un mensaje de error cuando un usuario de Studio abre un archivo de cuaderno e intenta seleccionar un kernel. Para ignorar este mensaje de error, pulse Aceptar, pero debe asociar el espacio de trabajo a un clúster y seleccionar un kernel para poder ejecutar el código del cuaderno.

  • Cuando utilizas Amazon EMR 6.2.0 con una configuración de seguridad para configurar la seguridad del clúster, la interfaz de Workspace aparece en blanco y no funciona como se esperaba. Le recomendamos que utilice una versión compatible diferente de Amazon EMR si quiere configurar el cifrado de datos o la autorización de Amazon S3 EMRFS para un clúster. EMRStudio funciona con EMR las versiones 5.32.0 (serie Amazon EMR 5.x) y 6.2.0 (serie EMR Amazon 6.x) y superiores.

  • Cuando Depurar Amazon EMR que se ejecuta en Amazon Jobs EC2, es posible que los enlaces a la interfaz de usuario de Spark en el clúster no funcionen o no aparezcan. Para regenerar los enlaces, cree una nueva celda del cuaderno y ejecute el comando %%info.

  • Jupyter Enterprise Gateway no limpia los núcleos inactivos del nodo principal de un clúster en las siguientes EMR versiones de Amazon: 5.32.0, 5.33.0, 6.2.0 y 6.3.0. Los kernels inactivos consumen recursos de computación y pueden provocar errores en los clústeres que se ejecutan durante mucho tiempo. Puede configurar la limpieza de kernels inactivos de Jupyter Enterprise Gateway mediante el siguiente script de ejemplo. Puede Conéctese al nodo principal EMR del clúster de Amazon mediante SSH o enviar el script como un paso. Para obtener más información, consulta Ejecutar comandos y scripts en un EMR clúster de Amazon.

    #!/bin/bash sudo tee -a /emr/notebook-env/conf/jupyter_enterprise_gateway_config.py << EOF c.MappingKernelManager.cull_connected = True c.MappingKernelManager.cull_idle_timeout = 10800 c.MappingKernelManager.cull_interval = 300 EOF sudo systemctl daemon-reload sudo systemctl restart jupyter_enterprise_gateway
  • Cuando utilizas una política de terminación automática con EMR las versiones 5.32.0, 5.33.0, 6.2.0 o 6.3.0 de Amazon, Amazon EMR marca un clúster como inactivo y puede cancelarlo automáticamente incluso si tienes un kernel de Python3 activo. Esto se debe a que al ejecutar un kernel de Python3 no se envía ningún trabajo de Spark al clúster. Para utilizar la terminación automática con un núcleo de Python3, le recomendamos que utilice la EMR versión 6.4.0 o posterior de Amazon. Para obtener más información sobre la terminación automática, consulte Uso de una política de terminación automática para la limpieza de EMR clústeres de Amazon.

  • Al mostrar un Spark DataFrame en una tabla, las tablas muy anchas pueden quedar truncadas. %%display Puede hacer clic con el botón derecho en la salida y seleccionar Crear nueva vista para la salida para obtener una vista desplazable de la salida.

  • Al iniciar un núcleo basado en Spark, como PySpark Spark o SparkR, se inicia una sesión de Spark y, al ejecutar una celda en un cuaderno, se ponen en cola los trabajos de Spark de esa sesión. Cuando interrumpes una celda en ejecución, el trabajo de Spark continúa ejecutándose. Para detener el trabajo de Spark, debe usar la interfaz de usuario de Spark en el clúster. Para obtener instrucciones sobre cómo conectarse a la interfaz de usuario de Spark, consulte Depura aplicaciones y trabajos con Studio EMR.

  • El uso de Amazon EMR Studio Workspaces como usuario root en an Cuenta de AWS provoca un 403: Forbidden error. Esto se debe a que la configuración de Jupyter Enterprise Gateway en Amazon EMR no permite el acceso al usuario root. Le recomendamos que no utilice el usuario root para sus tareas diarias. Para ver otras opciones de autenticación, AWS Identity and Access Management consulta Amazon EMR.

Limitaciones de características

Amazon EMR Studio no admite las siguientes EMR funciones de Amazon:

  • Adjuntar y ejecutar trabajos en EMR clústeres con una configuración de seguridad que especifique la autenticación Kerberos

  • Clústeres con varios nodos principales

  • Clústeres que utilizan EC2 instancias de Amazon basadas en AWS Graviton2 para las versiones EMR 6.x de Amazon anteriores a la 6.9.0 y 5.x inferiores a la 5.36.1

Un Studio que utiliza la propagación de identidades de confianza no admite las siguientes características:

  • Crear clústeres EMR sin una plantilla.

  • Uso de aplicaciones EMR sin servidor.

  • Lanzamiento de Amazon EMR en EKS clústeres.

  • Utilización de un rol de tiempo de ejecución.

  • Habilitar la colaboración en SQL Explorer o Workspace.

Límites de servicio para EMR Studio

En la siguiente tabla se muestran los límites de servicio de EMR Studio.

Elemento Límite
EMREstudios Máximo de 100 por AWS cuenta
Subredes Máximo de 5 asociados a cada EMR estudio
IAMGrupos de Identity Center Se asignaron un máximo de 5 a cada EMR estudio
IAMUsuarios de Identity Center Se asignó un máximo de 100 a cada EMR estudio