Configuración del acceso de red a los almacenes de datos - AWS Glue

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Configuración del acceso de red a los almacenes de datos

Para ejecutar sus trabajos de extracción, transformación y carga (ETL), AWS Glue debe tener la posibilidad de obtener acceso a los almacenes de datos. Si un trabajo no necesita ejecutarse en la subred de la nube privada virtual (VPC); por ejemplo, transformar datos de Amazon S3 a Amazon S3, no se necesita una configuración adicional.

Si un trabajo debe ejecutarse en la subred de VPC, por ejemplo, deben transformarse datos de un almacén de datos de JDBC en una subred privada, AWS Glue configura interfaces de red elásticas que permiten que sus trabajos se conecten de forma segura con otros recursos dentro de la VPC. A cada interfaz de red elástica se le asigna una dirección IP privada del intervalo de direcciones IP de la subred especificada. No se asignan direcciones IP públicas. Los grupos de seguridad especificados en la conexión AWS Glue se aplican en cada una de las interfaces de red elásticas. Para obtener más información, consulte Configuración de una VPC de Amazon para conexiones JDBC a los almacenes de datos de Amazon RDS de AWS Glue.

Todos los almacenes de datos JDBC a los obtiene acceso el flujo de trabajo deben estar disponibles a partir de la subred VPC. Para obtener acceso a Amazon S3 desde su VPC, se requiere un punto de enlace de la VPC. Si su trabajo necesita obtener acceso a los recursos de la VPC y a la red pública de Internet, la VPC debe tener una gateway de NAT (traducción de direcciones de red) dentro de la VPC.

Un flujo de trabajo o punto de enlace de desarrollo solo puede obtener acceso a una VPC (y subred) a la vez. Si necesita obtener acceso a almacenes de datos en diferentes VPC, dispone de las siguientes opciones:

  • Utilice las interconexiones de la VPC para obtener acceso a los almacenes de datos. Para obtener más información acerca de las interconexiones de VPC, consulte Conceptos básicos de las interconexiones de VPC

  • Utilice un bucket de Amazon S3 como ubicación de almacenamiento intermediaria. Divida el flujo de trabajo en dos trabajos, con la salida de Amazon S3 del trabajo 1 como entrada del trabajo 2.

Para obtener más información sobre cómo conectarse a un almacén de datos de Amazon Redshift a través de Amazon VPC, consulte Configuración de las conexiones de Redshift.

Para obtener más información sobre cómo conectarse a los almacenes de datos de Amazon RDS a través de Amazon VPC, consulte Configuración de una VPC de Amazon para conexiones JDBC a los almacenes de datos de Amazon RDS de AWS Glue.

Una vez establecidas las reglas necesarias en Amazon VPC, debe crear una conexión en AWS Glue con las propiedades necesarias para conectarse a sus almacenes de datos. Para obtener más información sobre la conexión, consulte Conexión a datos.

nota

Asegúrese de que configure su entorno de DNS para AWS Glue. Para obtener más información, consulte Configuración de DNS en la VPC.