Ejecute cargas de trabajo interactivas con EMR Serverless a través de Studio EMR - Amazon EMR

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Ejecute cargas de trabajo interactivas con EMR Serverless a través de Studio EMR

Información general

Una aplicación interactiva es una aplicación EMR sin servidor que tiene habilitadas las capacidades interactivas. Con las aplicaciones interactivas Amazon EMR Serverless, puede ejecutar cargas de trabajo interactivas con los cuadernos de Jupyter que se administran en Amazon Studio. EMR Esto ayuda a los ingenieros de datos, científicos de datos y analistas de datos a utilizar EMR Studio para ejecutar análisis interactivos con conjuntos de datos en almacenes de datos como Amazon S3 y Amazon DynamoDB.

Los casos de uso de aplicaciones interactivas en EMR Serverless incluyen los siguientes:

  • Los ingenieros de datos utilizan la IDE experiencia de EMR Studio para crear un ETL script. El script ingiere datos de las instalaciones, los transforma para su análisis y los almacena en Amazon S3.

  • Los científicos de datos utilizan cuadernos para explorar conjuntos de datos y entrenar modelos de aprendizaje automático (ML) para detectar anomalías en los conjuntos de datos.

  • Los analistas de datos exploran los conjuntos de datos y crean scripts que generan informes diarios para actualizar aplicaciones, como los cuadros de mando empresariales.

Requisitos previos

Para utilizar cargas de trabajo interactivas con EMR Serverless, debe cumplir los siguientes requisitos:

  • EMRLas aplicaciones interactivas sin servidor son compatibles con Amazon EMR 6.14.0 y versiones posteriores.

  • Para acceder a su aplicación interactiva, ejecutar las cargas de trabajo que envíe y ejecutar cuadernos interactivos desde EMR Studio, necesita permisos y funciones específicos. Para obtener más información, consulte Permisos necesarios para las cargas de trabajo interactivas.

Permisos necesarios para las cargas de trabajo interactivas

Además de los permisos básicos necesarios para acceder a EMR Serverless, debe configurar permisos adicionales para su IAM identidad o función:

Para acceder a su aplicación interactiva

Configura los permisos de usuario y de Workspace para EMR Studio. Para obtener más información, consulte Configurar los permisos de usuario de EMR Studio en la Amazon EMR Management Guide.

Para ejecutar las cargas de trabajo que envíe con Serverless EMR

Configure un rol de ejecución de tareas. Para obtener más información, consulte Cree un rol de ejecución de tareas.

Para ejecutar los cuadernos interactivos desde Studio EMR

Añada los siguientes permisos adicionales a la IAM política para los usuarios de Studio:

  • emr-serverless:AccessInteractiveEndpoints- Otorga permiso para acceder a la aplicación interactiva que especifique y conectarse a ellaResource. Este permiso es necesario para adjuntarlo a una aplicación EMR sin servidor desde un espacio de trabajo de EMR Studio.

  • iam:PassRole- Otorga permiso para acceder a la función de IAM ejecución que va a utilizar al adjuntarla a una aplicación. Se requiere el PassRole permiso correspondiente para conectarse a una aplicación EMR sin servidor desde un espacio de trabajo de EMR Studio.

{ "Version": "2012-10-17", "Statement": [ { "Sid": "EMRServerlessInteractiveAccess", "Effect": "Allow", "Action": "emr-serverless:AccessInteractiveEndpoints", "Resource": "arn:aws:emr-serverless:Region:account:/applications/*" }, { "Sid": "EMRServerlessRuntimeRoleAccess", "Effect": "Allow", "Action": "iam:PassRole", "Resource": "interactive-execution-role-ARN", "Condition": { "StringLike": { "iam:PassedToService": "emr-serverless.amazonaws.com" } } } ] }

Configuración de aplicaciones interactivas

Siga los siguientes pasos de alto nivel para crear una aplicación EMR sin servidor con funciones interactivas de Amazon EMR Studio en el AWS Management Console.

  1. Siga los pasos que se indican Introducción a Amazon EMR Serverless a continuación para crear una aplicación.

  2. A continuación, inicie un espacio de trabajo desde EMR Studio y conéctelo a una aplicación EMR sin servidor como opción de procesamiento. Para obtener más información, consulte la pestaña Carga de trabajo interactiva en el paso 2 de la documentación de introducción a EMR Serverless.

Al adjuntar una aplicación a un espacio de trabajo de Studio, el inicio de la aplicación se activa automáticamente si aún no se está ejecutando. También puedes preiniciar la aplicación y tenerla lista antes de adjuntarla al espacio de trabajo.

Consideraciones sobre las aplicaciones interactivas

  • EMRLas aplicaciones interactivas sin servidor son compatibles con Amazon EMR 6.14.0 y versiones posteriores.

  • EMRStudio es el único cliente que está integrado con las aplicaciones interactivas EMR sin servidor. Las siguientes funciones de EMR Studio no son compatibles con las aplicaciones interactivas EMR sin servidor: Workspace Collaboration, SQL Explorer y ejecución programática de cuadernos.

  • Las aplicaciones interactivas solo son compatibles con el motor Spark.

  • Las aplicaciones interactivas son compatibles con los núcleos de Python 3 PySpark y Spark Scala.

  • Puedes ejecutar hasta 25 cuadernos simultáneos en una sola aplicación interactiva.

  • No hay un punto final o una API interfaz que admita los cuadernos Jupyter autohospedados con aplicaciones interactivas.

  • Para una experiencia de inicio optimizada, le recomendamos que configure la capacidad preinicializada para los controladores y ejecutores y que inicie previamente la aplicación. Al iniciar previamente la aplicación, asegúrate de que esté lista cuando quieras adjuntarla a tu espacio de trabajo.

    aws emr-serverless start-application \ --application-id your-application-id
  • De forma predeterminada, autoStopConfig está habilitada para las aplicaciones. Esto cierra la aplicación después de 30 minutos de inactividad. Puede cambiar esta configuración como parte de su create-application update-application solicitud.

  • Cuando utilice una aplicación interactiva, le recomendamos que configure una capacidad preinicializada de núcleos, controladores y ejecutores para ejecutar sus ordenadores portátiles. Cada sesión interactiva de Spark requiere un núcleo y un controlador, por lo que EMR Serverless mantiene un servidor de núcleo preinicializado para cada controlador preinicializado. De forma predeterminada, EMR Serverless mantiene la capacidad preinicializada de un servidor del núcleo en toda la aplicación, aunque no especifiques ninguna capacidad preinicializada para los controladores. Cada servidor del núcleo utiliza 4 v CPU y 16 GB de memoria. Para obtener información sobre los precios actuales, consulta la página de EMRprecios de Amazon.

  • Debe tener una cuota de CPU servicio V suficiente en su Cuenta de AWS para ejecutar cargas de trabajo interactivas. Si no ejecuta cargas de trabajo compatibles con Lake Formation, le recomendamos que utilice al menos 24 v. CPU Si lo hace, le recomendamos que utilice al menos 28 v. CPU

  • EMRServerless cierra automáticamente los núcleos de los cuadernos si han estado inactivos durante más de 60 minutos. EMRServerless calcula el tiempo de inactividad del núcleo a partir de la última actividad completada durante la sesión del bloc de notas. Actualmente, no se puede modificar la configuración de tiempo de espera de inactividad del núcleo.

  • Para habilitar Lake Formation con cargas de trabajo interactivas, spark.emr-serverless.lakeformation.enabled defina true la configuración en la spark-defaults clasificación del runtime-configuration objeto al crear una aplicación EMR sin servidor. Para obtener más información sobre cómo habilitar Lake Formation en EMR Serverless, consulta Cómo habilitar Lake Formation en Amazon EMR.