Prepare los datos con EMR Serverless - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Prepare los datos con EMR Serverless

A partir de la versión de imagen de SageMaker distribución1.10, Amazon SageMaker Studio se integra con EMR Serverless. Con las JupyterLab libretas de SageMaker Studio, los científicos e ingenieros de datos pueden descubrir aplicaciones EMR sin servidor y conectarse a ellas, y luego explorar, visualizar y preparar de forma interactiva cargas de trabajo de Apache Spark o Apache Hive a gran escala. Esta integración permite realizar un preprocesamiento interactivo de datos a escala como preparación para el entrenamiento y la implementación de modelos de aprendizaje automático.

En concreto, la versión actualizada de la versión de imagen sagemaker-studio-analytics-extensionSageMakerdistribuida 1.10 aprovecha la integración entre Apache Livy y EMR Serverless, lo que permite la conexión a un punto final de Apache Livy a través de cuadernos. JupyterLab En esta sección se presupone un conocimiento previo de las aplicaciones interactivas sin servidor. EMR

importante

Al usar Studio, solo puede detectar aplicaciones EMR sin servidor y conectarse a ellas si se inician desde espacios privados. JupyterLab Asegúrese de que las aplicaciones EMR sin servidor estén ubicadas en la misma AWS región que su entorno de Studio.

Requisitos previos

Antes de empezar a ejecutar cargas de trabajo interactivas con EMR Serverless desde tus JupyterLab portátiles, asegúrate de cumplir los siguientes requisitos previos:

  1. Tu JupyterLab espacio debe usar una versión de imagen de SageMaker distribución o superior. 1.10

  2. Cree una aplicación interactiva EMR sin servidor con la EMR versión Amazon 6.14.0 o superior. Puede crear una aplicación EMR sin servidor desde la interfaz de usuario de Studio siguiendo los pasos que se indican. Cree aplicaciones EMR sin servidor desde Studio

    nota

    Para una configuración más sencilla, puedes crear tu aplicación EMR sin servidor en la interfaz de usuario de Studio sin cambiar la configuración predeterminada de la opción Nube privada virtual (VPC). Esto permite crear la aplicación en tu dominio VPC sin necesidad de configurar la red. En este caso, puede omitir el siguiente paso de configuración de red.

  3. Consulte los requisitos de red y seguridad enConfigura el acceso a la red para tu EMR clúster de Amazon. En concreto, asegúrese de:

    • Establece una conexión entre VPC pares entre tu cuenta de Studio y tu cuenta de EMR Serverless.

    • Añade rutas a las tablas de rutas de las subredes privadas de ambas cuentas.

    • Configure el grupo de seguridad adjunto a su dominio de Studio para permitir el tráfico saliente y configure el grupo de seguridad en el VPC que planea ejecutar las aplicaciones EMR sin servidor para permitir el TCP tráfico entrante desde el grupo de seguridad de la instancia de Studio.

  4. Para acceder a tus aplicaciones interactivas en EMR Serverless y ejecutar las cargas de trabajo enviadas desde tus JupyterLab cuadernos en SageMaker Studio, debes asignar permisos y funciones específicos. Consulta la Configura los permisos para habilitar la publicación y el lanzamiento de EMR aplicaciones de Amazon desde SageMaker Studio sección para obtener más información sobre las funciones y los permisos necesarios.