Configuración de acceso a la red para su clúster de Amazon EMR - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Configuración de acceso a la red para su clúster de Amazon EMR

Antes de empezar a utilizar Amazon EMR o EMR sin servidor para las tareas de preparación de datos en Studio, asegúrese de que usted o su administrador hayan configurado la red para permitir la comunicación entre Studio y Amazon EMR. Una vez habilitada esta comunicación, puede optar por:

nota

Para los usuarios de EMR sin servidor, la configuración más sencilla consiste en crear la aplicación en la interfaz de usuario de Studio sin modificar la configuración predeterminada de la opción Nube privada virtual (VPC). Este enfoque permite crear la aplicación dentro de la VPC de su SageMaker dominio, lo que elimina la necesidad de una configuración de red adicional. Si elige esta opción, puede omitir la siguiente sección sobre la configuración de red.

Las instrucciones sobre la red varían en función de si Studio y Amazon EMR se implementan en una Amazon Virtual Private Cloud (VPC) privada o se comunican a través de Internet.

De forma predeterminada, Studio o Studio Classic se ejecutan en una VPC AWS gestionada con acceso a Internet. Cuando se utiliza una conexión a Internet, Studio y Studio Classic acceden a AWS los recursos, como los buckets de Amazon S3, a través de Internet. Sin embargo, si tiene requisitos de seguridad para controlar el acceso a sus contenedores de datos y trabajos, le recomendamos que configure Studio o Studio Classic y Amazon EMR para que no se pueda acceder a sus datos y contenedores a través de Internet. Para controlar el acceso a sus recursos o ejecutar Studio o Studio Classic sin acceso público a Internet, puede especificar el tipo de acceso a la VPC only red al incorporarse al dominio Amazon SageMaker AI. En este escenario, tanto Studio como Studio Classic establecen conexiones con otros AWS servicios a través de puntos finales de VPC privados. Para obtener información sobre la configuración de Studio o Studio Classic en VPC only modo, consulte Conectar los blocs de notas de SageMaker Studio o Studio Classic de una VPC a recursos externos. .

Las dos primeras secciones describen cómo garantizar la comunicación entre Studio o Studio Classic y Amazon EMR VPCs sin acceso público a Internet. La última sección trata sobre cómo garantizar la comunicación entre Studio o Studio Classic y Amazon EMR mediante una conexión a Internet. Antes de conectar Studio o Studio Classic y Amazon EMR sin acceso a Internet, asegúrese de establecer puntos de enlace para Amazon Simple Storage Service (almacenamiento de datos), Amazon CloudWatch (registro y supervisión) y Amazon SageMaker Runtime (control de acceso detallado basado en roles (RBAC)).

Para conectar Studio o Studio Classic y Amazon EMR:

Studio y Amazon EMR están separados VPCs

Para permitir la comunicación entre Studio o Studio Classic y Amazon EMR cuando se implementan por separado: VPCs

  1. Comience por conectarlo VPCs a través de una conexión de emparejamiento de VPC.

  2. Actualice las tablas de enrutamiento en cada VPC para enrutar el tráfico de red entre las subredes de Studio o Studio Classic y las subredes de Amazon EMR en ambos sentidos.

  3. Configure sus grupos de seguridad para permitir el tráfico entrante y saliente.

Los pasos para conectar Studio o Studio Classic y Amazon EMR son los mismos tanto si los recursos se implementan en una sola AWS cuenta (caso de uso de una sola cuenta) como en varias AWS cuentas (caso de uso de varias cuentas).

  1. Emparejamiento de VPC

    Cree una conexión de emparejamiento de VPC para facilitar la creación de redes entre ambas VPCs (Studio o Studio Classic y Amazon EMR).

    1. En la cuenta de Studio o Studio Classic, en el panel de control de la VPC, seleccione Interconexiones y, a continuación, Crear interconexión.

    2. Cree su solicitud para emparejar la VPC de Studio o Studio Classic con la VPC de Amazon EMR. Cuando solicites el emparejamiento en otra AWS cuenta, selecciona Otra cuenta en Seleccione otra VPC con la que realizar el emparejamiento.

      Para la interconexión entre cuentas, el administrador debe aceptar la solicitud de la cuenta de Amazon EMR.

      Al emparejar subredes privadas, debe habilitar la resolución DNS de IP privada en el nivel de conexión de emparejamiento de VPC.

  2. Tablas de enrutamiento

    Envíe el tráfico de red entre las subredes de Studio o Studio Classic y las subredes de Amazon EMR en ambos sentidos.

    Tras establecer la conexión de emparejamiento, el administrador (en cada cuenta para el acceso entre cuentas) puede añadir rutas a las tablas de enrutamiento de las subredes privadas para enrutar el tráfico entre Studio o Studio Classic y las subredes de Amazon EMR. Para definir esas rutas, vaya a la sección Route Tables (Tablas de enrutamiento) de cada VPC en el panel de VPC.

    La siguiente ilustración de la tabla de enrutamiento de una subred de VPC de Studio muestra un ejemplo de una ruta de salida desde la cuenta de Studio al rango de IP de la VPC de Amazon EMR (aquí 2.0.1.0/24) a través de la interconexión.

    Tabla de enrutamiento de una subred VPC de Studio que muestra las rutas que salen de la cuenta de Studio al rango de IP de la VPC de Amazon EMR (aquí 2.0.1.0/24) a través de la interconexión

    La siguiente ilustración de una tabla de enrutamiento de una subred de VPC de Amazon EMR muestra un ejemplo de rutas de retorno desde la VPC de Amazon EMR al rango de IP de la VPC de Studio (aquí 10.0.20.0/24) a través de la interconexión.

    Tabla de enrutamiento de una subred de VPC de Amazon EMR que muestra las rutas de retorno desde la cuenta de Amazon EMR hasta el rango de IP de VPC de Studio (aquí 10.0.20.0/24) a través de la interconexión
  3. Grupos de seguridad

    Por último, el grupo de seguridad de su dominio de Studio o Studio Classic debe permitir el tráfico saliente. Además, el grupo de seguridad del nodo principal de Amazon EMR debe permitir el tráfico entrante en los puertos de TCP de Apache Livy, Hive o Presto (8998, 10000 y 8889 respectivamente) desde el grupo de seguridad de instancias de Studio o Studio Classic. Apache Livy es un servicio que permite la interacción con Amazon EMR sobre una interfaz REST.

El siguiente diagrama muestra un ejemplo de una configuración de Amazon VPC que permite JupyterLab a nuestros portátiles Studio Classic aprovisionar clústeres de Amazon EMR a partir de plantillas AWS CloudFormation del catálogo de servicios y, a continuación, conectarse a un clúster de Amazon EMR de la misma cuenta. AWS El diagrama proporciona una ilustración adicional de los puntos de conexión necesarios para una conexión directa a varios AWS servicios, como Amazon S3 o Amazon CloudWatch, cuando no VPCs tienen acceso a Internet. Como alternativa, se debe usar una puerta de enlace NAT para permitir que las instancias de subredes privadas de varias VPCs subredes privadas compartan una única dirección IP pública proporcionada por la puerta de enlace de Internet al acceder a Internet.

Diagrama de arquitectura que ilustra un ejemplo de una configuración sencilla de Amazon VPC que permite a las libretas Studio o Studio Classic aprovisionar clústeres AWS CloudFormation de Amazon EMR a partir de plantillas del catálogo de servicios y, a continuación, conectarse a un clúster de Amazon EMR de la misma cuenta. AWS El diagrama proporciona una ilustración adicional de los puntos de conexión necesarios para una conexión directa a varios AWS servicios, como Amazon S3 o Amazon CloudWatch, cuando no VPCs tienen acceso a Internet. Como alternativa, se debe usar una puerta de enlace NAT para permitir que las instancias de subredes privadas de varias VPCs subredes privadas compartan una única dirección IP pública proporcionada por la puerta de enlace de Internet al acceder a Internet.

Studio y Amazon EMR están en la misma VPC

Si Studio o Studio Classic y Amazon EMR se encuentran en subredes diferentes, añada rutas a cada tabla de enrutamiento de subred privada para enrutar el tráfico entre Studio o Studio Classic y las subredes de Amazon EMR. Para definir esas rutas, vaya a la sección Route Tables (Tablas de enrutamiento) de cada VPC en el panel de VPC. Si ha implementado Studio o Studio Classic y Amazon EMR en la misma VPC y la misma subred, no necesita enrutar el tráfico entre Studio y Amazon EMR.

Tanto si necesita actualizar las tablas de enrutamiento como si no, el grupo de seguridad de su dominio de Studio o Studio Classic debe permitir el tráfico saliente. Además, el grupo de seguridad del nodo principal de Amazon EMR debe permitir el tráfico entrante en los puertos de TCP de Apache Livy, Hive o Presto (8998, 10000 y 8889, respectivamente) desde el grupo de seguridad de instancias de Studio o Studio Classic. Apache Livy es un servicio que permite la interacción con Amazon EMR sobre una interfaz REST.

Studio y Amazon EMR se comunican a través de Internet público

De forma predeterminada, Studio y Studio Classic proporcionan una interfaz de red que permite la comunicación con Internet a través de una puerta de enlace de Internet en la VPC asociada al SageMaker dominio. Si decide conectarse a Amazon EMR a través de la red pública de Internet, Amazon EMR debe aceptar el tráfico entrante en los puertos de TCP de Apache Livy, Hive o Presto (8998, 10000 y 8889 respectivamente) desde su puerta de enlace de Internet. Apache Livy es un servicio que permite la interacción con Amazon EMR sobre una interfaz REST.

Tenga en cuenta que cualquier puerto en el que permita el tráfico entrante representa una posible vulnerabilidad de seguridad. Revise con atención los grupos de seguridad personalizados para asegurarse de minimizar las vulnerabilidades. Para obtener más información, consulte Control del tráfico de red con grupos de seguridad.

Como alternativa, consulte Blogs y documentos técnicos para obtener un tutorial detallado sobre cómo habilitar Kerberos en Amazon EMR, configurar el clúster en una subred privada y acceder al clúster mediante un Equilibrador de carga de red (NLB) para mostrar solo puertos específicos, cuyo acceso se controla mediante grupos de seguridad.

nota

Al conectarse a su punto de conexión de Apache Livy a través de la red pública de Internet, le recomendamos que proteja las comunicaciones entre Studio o Studio Classic y su clúster de Amazon EMR mediante TLS.

Para obtener información sobre cómo configurar HTTPS con Apache Livy, consulte Habilitar HTTPS con Apache Livy. Para obtener información sobre cómo configurar un clúster de Amazon EMR con el cifrado de tránsito habilitado, consulte Proporcionar certificados para cifrar datos en tránsito con el cifrado de Amazon EMR. Además, debe configurar Studio o Studio Classic para acceder a la clave de su certificado tal y como se especifica en Conectar a un clúster de Amazon EMR a través de HTTPS.