Configura el acceso a la red para tu EMR clúster de Amazon - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Configura el acceso a la red para tu EMR clúster de Amazon

Antes de empezar a utilizar Amazon EMR o EMR Serverless para las tareas de preparación de datos en Studio, asegúrese de que usted o su administrador hayan configurado la red para permitir la comunicación entre Studio y AmazonEMR. Una vez habilitada esta comunicación, puedes elegir entre:

nota

Para los usuarios EMR sin servidor, la configuración más sencilla consiste en crear la aplicación en la interfaz de usuario de Studio sin modificar la configuración predeterminada de la opción de nube privada virtual (VPC). Este enfoque permite crear la aplicación dentro del SageMaker dominioVPC, lo que elimina la necesidad de una configuración de red adicional. Si elige esta opción, puede omitir la siguiente sección de configuración de red.

Las instrucciones de red varían en función de si Studio y Amazon EMR se implementan en una Amazon Virtual Private Cloud (VPC) privada o si se comunican a través de Internet.

De forma predeterminada, Studio o Studio Classic se ejecutan en un entorno AWS gestionado VPC con acceso a Internet. Cuando se utiliza una conexión a Internet, Studio y Studio Classic acceden a AWS los recursos, como los buckets de Amazon S3, a través de Internet. Sin embargo, si tiene requisitos de seguridad para controlar el acceso a sus contenedores de datos y trabajos, le recomendamos que configure Studio o Studio Classic y Amazon EMR para que no se pueda acceder a sus datos y contenedores a través de Internet. Para controlar el acceso a tus recursos o ejecutar Studio o Studio Classic sin acceso público a Internet, puedes especificar el tipo de acceso a la VPC only red al incorporarte al SageMaker dominio de Amazon. En este escenario, tanto Studio como Studio Classic establecen conexiones con otros AWS servicios a través de VPCpuntos de conexión privados. Para obtener información sobre la configuración de Studio o Studio Classic en VPC only el modo, consulte Conectar libretas SageMaker Studio o Studio Classic en un VPC recurso externo. .

Las dos primeras secciones describen cómo garantizar la comunicación entre Studio o Studio Classic y Amazon EMR VPCs sin acceso público a Internet. La última sección explica cómo garantizar la comunicación entre Studio o Studio Classic y Amazon EMR mediante una conexión a Internet. Antes de conectar Studio o Studio Classic y Amazon EMR sin acceso a Internet, asegúrese de establecer puntos de enlace para Amazon Simple Storage Service (almacenamiento de datos), Amazon CloudWatch (registro y supervisión) y Amazon SageMaker Runtime (control de acceso detallado basado en roles ()). RBAC

Para conectar Studio o Studio Classic y AmazonEMR:

Studio y Amazon EMR están separados VPCs

Para permitir la comunicación entre Studio o Studio Classic y Amazon EMR cuando se despliegan por separadoVPCs:

  1. Comience por conectarlo a VPCs través de una conexión entre VPC pares.

  2. Actualice las tablas de enrutamiento en cada una de ellas VPC para enrutar el tráfico de red entre las subredes de Studio o Studio Classic y las subredes de Amazon en ambos EMR sentidos.

  3. Configure sus grupos de seguridad para permitir el tráfico entrante y saliente.

Los pasos para conectar Studio o Studio Classic y Amazon EMR son los mismos tanto si los recursos se implementan en una sola AWS cuenta (caso de uso de una sola cuenta) como en varias AWS cuentas (caso de uso de varias cuentas).

  1. VPCinterconexión

    Cree una conexión entre VPC pares para facilitar la creación de redes entre los dos VPCs (Studio o Studio Classic y AmazonEMR).

    1. Desde tu cuenta de Studio o Studio Classic, en el VPC panel de control, selecciona Conexiones de interconexión y, a continuación, Crear conexión de interconexión.

    2. Crea tu solicitud para emparejar Studio o Studio Classic VPC con Amazon EMRVPC. Cuando solicites la conexión entre pares en otra AWS cuenta, selecciona Otra cuenta en Selecciona otra cuenta con VPC la que compartir.

      Para la interconexión entre cuentas, el administrador debe aceptar la solicitud de la cuenta de AmazonEMR.

      Al emparejar subredes privadas, debes habilitar la DNS resolución de IP privada en el VPC nivel de conexión entre pares.

  2. Tablas de enrutamiento

    Envía el tráfico de red entre las subredes de Studio o Studio Classic y las subredes de Amazon en ambos EMR sentidos.

    Tras establecer la conexión de emparejamiento, el administrador (en cada cuenta para el acceso entre cuentas) puede añadir rutas a las tablas de rutas de las subredes privadas para enrutar el tráfico entre Studio o Studio Classic y las subredes de Amazon. EMR Para definir esas rutas, vaya a la sección de tablas de rutas de cada VPC una de ellas en el panel de control. VPC

    La siguiente ilustración de la tabla de enrutamiento de una VPC subred de Studio muestra un ejemplo de una ruta de salida desde la cuenta de Studio al rango de EMR VPC IP de Amazon (aquí2.0.1.0/24) a través de la conexión de emparejamiento.

    Tabla de enrutamiento de una VPC subred de Studio que muestra las rutas de salida desde la cuenta de Studio hasta el rango de EMR VPC IP de Amazon (aquí2.0.1.0/24) a través de la conexión de emparejamiento

    La siguiente ilustración de una tabla de enrutamiento de una EMR VPC subred de Amazon muestra un ejemplo de rutas de retorno desde el rango de VPC IP de Amazon EMR VPC a Studio (aquí10.0.20.0/24) a través de la conexión de emparejamiento.

    Tabla de enrutamiento de una EMR VPC subred de Amazon que muestra las rutas de retorno desde la EMR cuenta de Amazon al rango de VPC IP de Studio (aquí10.0.20.0/24) a través de la conexión de emparejamiento
  3. Grupos de seguridad

    Por último, el grupo de seguridad de su dominio de Studio o Studio Classic debe permitir el tráfico saliente y el grupo de seguridad del nodo EMR principal de Amazon debe permitir el tráfico entrante en los TCP puertos Apache Livy, Hive o Presto (respectivamente 899810000, y8889) desde el grupo de seguridad de instancias de Studio o Studio Classic. Apache Livy es un servicio que permite la interacción con Amazon a EMR través de una REST interfaz.

El siguiente diagrama muestra un ejemplo de una VPC configuración de Amazon que permite JupyterLab a nuestras libretas Studio Classic aprovisionar EMR clústeres de Amazon a partir de AWS CloudFormation plantillas del Service Catalog y, a continuación, conectarse a un EMR clúster de Amazon dentro de la misma AWS cuenta. El diagrama proporciona una ilustración adicional de los puntos de conexión necesarios para una conexión directa a varios AWS servicios, como Amazon S3 o Amazon CloudWatch, cuando no VPCs tienen acceso a Internet. Como alternativa, se debe usar una NATpuerta de enlace para permitir que las instancias de subredes privadas de varias unidades VPCs compartan una única dirección IP pública proporcionada por la puerta de enlace de Internet al acceder a Internet.

Diagrama de arquitectura que ilustra un ejemplo de una VPC configuración sencilla de Amazon que permite a las libretas Studio o Studio Classic aprovisionar EMR clústeres de Amazon a partir de AWS CloudFormation plantillas del Service Catalog y, a continuación, conectarse a un EMR clúster de Amazon dentro de la misma AWS cuenta. El diagrama proporciona una ilustración adicional de los puntos de conexión necesarios para una conexión directa a varios AWS servicios, como Amazon S3 o Amazon CloudWatch, cuando no VPCs tienen acceso a Internet. Como alternativa, se debe usar una NATpuerta de enlace para permitir que las instancias de subredes privadas de varias unidades VPCs compartan una única dirección IP pública proporcionada por la puerta de enlace de Internet al acceder a Internet.

Studio y Amazon EMR están en lo mismo VPC

Si Studio o Studio Classic y Amazon EMR están en subredes diferentes, añade rutas a cada tabla de enrutamiento de subred privada para enrutar el tráfico entre Studio o Studio Classic y las subredes de AmazonEMR. Puedes definir esas rutas en la sección de tablas de rutas de cada una de ellas VPC en el panel de control. VPC Si implementaste Studio o Studio Classic y Amazon EMR en la misma VPC subred, no necesitas enrutar el tráfico entre Studio y AmazonEMR.

Tanto si necesita actualizar las tablas de enrutamiento como si no, el grupo de seguridad de su dominio de Studio o Studio Classic debe permitir el tráfico saliente y el grupo de seguridad del nodo EMR principal de Amazon debe permitir el tráfico entrante en los TCP puertos Apache Livy, Hive o Presto (respectivamente 899810000, y8889) desde el grupo de seguridad de instancias de Studio o Studio Classic. Apache Livy es un servicio que permite la interacción con Amazon a EMR través de una REST interfaz.

Studio y Amazon EMR se comunican a través de Internet público

De forma predeterminada, Studio y Studio Classic proporcionan una interfaz de red que permite la comunicación con Internet a través de una puerta de enlace a Internet VPC asociada al SageMaker dominio. Si eliges conectarte a Amazon a EMR través de la Internet pública, Amazon EMR debe aceptar el tráfico entrante en los TCP puertos Apache Livy, Hive o Presto (respectivamente 899810000, y8889) desde su puerta de enlace de Internet. Apache Livy es un servicio que permite la interacción con Amazon a EMR través de una REST interfaz.

Tenga en cuenta que cualquier puerto en el que permita el tráfico entrante representa una posible vulnerabilidad de seguridad. Revise con atención los grupos de seguridad personalizados para asegurarse de minimizar las vulnerabilidades. Para obtener más información, consulte Control del tráfico de red con grupos de seguridad.

También puede consultar Blogs y documentos técnicos un tutorial detallado sobre cómo habilitar Kerberos en Amazon EMR, configurar el clúster en una subred privada y acceder al clúster mediante un Network Load Balancer NLB () para mostrar solo puertos específicos, cuyo acceso se controla mediante grupos de seguridad.

nota

Al conectarse a su punto de conexión Apache Livy a través de la Internet pública, le recomendamos que proteja las comunicaciones entre Studio o Studio Classic y su EMR clúster de Amazon medianteTLS.

Para obtener información sobre la configuración HTTPS con Apache Livy, consulte Habilitar HTTPS con Apache Livy. Para obtener información sobre cómo configurar un EMR clúster de Amazon con el cifrado de tránsito activado, consulta Cómo proporcionar certificados para cifrar datos en tránsito con el EMR cifrado de Amazon. Además, debe configurar Studio o Studio Classic para acceder a su clave de certificado tal y como se especifica enConéctate a un EMR clúster de Amazon a través de HTTPS.