Rastreo de un data store de Amazon S3 mediante un VPC punto de conexión - AWS Glue

Rastreo de un data store de Amazon S3 mediante un VPC punto de conexión

Por motivos de seguridad, auditoría o control, puede que desee que solo se pueda acceder a su almacén de datos de Amazon S3 o a las tablas del catálogo de datos respaldadas por Amazon S3 a través de un entorno de Amazon Virtual Private Cloud (AmazonVPC). En este tema se describe cómo crear y probar una conexión al almacén de datos de Amazon S3 o a las tablas del catálogo de datos respaldadas por Amazon S3 en un VPC punto final utilizando el tipo de Network conexión.

Realice las siguientes tareas para ejecutar un rastreador en el almacén de datos:

Requisitos previos

Compruebe que cumple estos requisitos previos para configurar su almacén de datos de Amazon S3 o las tablas del catálogo de datos respaldadas por Amazon S3 para acceder a ellas a través de un entorno de Amazon Virtual Private Cloud (AmazonVPC).

  • Un configuradoVPC. Por ejemplo: vpc-01685961063b0d84b. Para obtener más información, consulta Cómo empezar a usar Amazon VPC en la Guía del VPC usuario de Amazon.

  • Un punto de conexión Amazon S3 conectado alVPC. Por ejemplo: vpc-01685961063b0d84b. Para obtener más información, consulte Endpoints for Amazon S3 en la Guía del VPC usuario de Amazon.

    Ejemplo de un punto de conexión de Amazon S3 conectado a unVPC.
  • Una entrada de ruta que apunta al VPC punto final. Por ejemplo, vpce-0ec5da4d265227786 en la tabla de rutas utilizada por el punto final (vpce-0ec5da4d265227786). VPC

    Ejemplo de una entrada de ruta que apunta VPC al punto final.
  • Una red ACL conectada a la VPC permite el tráfico.

  • Un grupo de seguridad adjunto a la VPC permite el tráfico.

Crear la conexión a Amazon S3

Por lo general, los recursos se crean dentro de Amazon Virtual Private Cloud (AmazonVPC) para que no se pueda acceder a ellos a través de la Internet pública. De forma predeterminada, no AWS Glue se puede acceder a los recursos de unVPC. Para poder acceder AWS Glue a los recursos internosVPC, debe proporcionar información de configuración adicional VPC específica, que incluya la VPC subred IDs y el grupo de seguridad. IDs Para crear una conexión de Network deberá especificar la siguiente información:

  • UN ID VPC

  • Una subred dentro del VPC

  • Un grupo de seguridad

Para configurar una conexión Network:

  1. Elija Add connection (Agregar conexión) en el panel de navegación de la consola de AWS Glue .

  2. Ingrese el nombre de la conexión, elija Network (Red) como el tipo de conexión. Elija Next (Siguiente).

    Seleccionar el tipo de conexión.
  3. Configure la información VPC de los grupos de subred y seguridad.

    • VPC: elija el VPC nombre que contiene su almacén de datos.

    • Subred: elija la subred dentro de su. VPC

    • Grupos de seguridad: elija uno o más grupos de seguridad que permitan el acceso al almacén de datos de su propiedad. VPC

    Seleccionar el tipo de conexión.
  4. Elija Next (Siguiente).

  5. Verifique la información de conexión y elija Finish (Finalizar).

    Seleccionar el tipo de conexión.

Prueba de la conexión a Amazon S3

Una vez que haya creado la Network conexión, puede probar la conectividad con su almacén de datos de Amazon S3 en un VPC punto final.

Pueden producirse los siguientes errores al probar una conexión:

  • INTERNETCONNECTIONERROR: indica un problema de conexión a Internet

  • INVALIDBUCKETERROR: indica un problema con el bucket de Amazon S3

  • S3 CONNECTIONERROR: indica un error al conectarse a Amazon S3

  • INVALIDCONNECTIONTYPE: indica que el tipo de conexión no tiene el valor esperado, NETWORK

  • INVALIDCONNECTIONTESTTYPE: indica un problema con el tipo de prueba de conexión de red

  • INVALIDTARGET: indica que el bucket de Amazon S3 no se ha especificado correctamente

Para probar una conexión Network:

  1. Seleccione la conexión Network (Red) en la consola de AWS Glue .

  2. Elija Test Connection (Probar conexión).

  3. Elija el IAM rol que creó en el paso anterior y especifique un bucket de Amazon S3.

  4. Elija Test connection (Probar conexión) para comenzar la prueba. Puede tardar unos minutos en mostrar el resultado.

Comprobación de la conexión.

Si recibe un error, verifique lo siguiente:

  • Se proporcionan los privilegios correctos para el rol seleccionado.

  • Se proporciona el bucket correcto de Amazon S3.

  • Los grupos de seguridad y la red ACL permiten el tráfico entrante y saliente necesario.

  • El VPC que especificó está conectado a un VPC punto final de Amazon S3.

Una vez haya probado la conexión con éxito, puede crear un rastreador.

Creación de un rastreador para un almacén de datos de Amazon S3

Ahora, puede crear un rastreador que especifique la conexión Network que ha creado. Para obtener más información sobre cómo crear un rastreador, consulte Configuración de rastreadores.

  1. Comience por elegir Crawlers en el panel de navegación de la AWS Glue consola.

  2. Elija Add crawler (Agregar rastreador).

  3. Especifique el nombre del rastreador y elija Next (Siguiente).

  4. Cuando se le solicite el origen de los datos, elija S3 y especifique el prefijo del bucket de Amazon S3 y la conexión que creó con anterioridad.

    Comprobación de la conexión.
  5. Si es necesario, agregue otro almacén de datos en la misma conexión de red.

  6. Elige un IAM rol. El IAM rol debe permitir el acceso al AWS Glue servicio y al bucket de Amazon S3. Para obtener más información, consulte Configuración de rastreadores.

    Comprobación de la conexión.
  7. Definir la programación para el rastreador.

  8. Elija una base de datos existente en el Catálogo de datos o cree una nueva entrada de base de datos.

    Comprobación de la conexión.
  9. Finalice la configuración restante.

Creación de un rastreador para tablas del Catálogo de datos respaldadas por Amazon S3

Ahora, puede crear un rastreador que especifique la conexión Network que ha creado y un tipo de origen Catalog (Catálogo). Para obtener más información sobre cómo crear un rastreador, consulte Configuración de rastreadores.

  1. Comience por elegir Crawlers en el panel de navegación de la AWS Glue consola.

  2. Elija Add crawler (Agregar rastreador).

  3. Especifique el nombre del rastreador y elija Next (Siguiente).

  4. Cuando se le solicite el tipo de origen del rastreador, elija Existing catalog tables (Tablas de catálogo existentes) y especifique las tablas de catálogo existentes que se van a rastrear en la lista de tablas disponibles.

    Selección del tipo de origen del rastreador.
  5. Elige un IAM rol. El IAM rol debe permitir el acceso al AWS Glue servicio y al bucket de Amazon S3. Para obtener más información, consulte Configuración de rastreadores.

  6. Definir la programación para el rastreador.

  7. Elija una base de datos existente en el Catálogo de datos o cree una nueva entrada de base de datos.

  8. Finalice la configuración restante y revise los pasos.

    Selección del tipo de origen del rastreador.

Ejecución de un rastreador

Ejecute su rastreador.

Ejecutar su rastreador bajo demanda.

Resolución de problemas

Para solucionar problemas relacionados con los buckets de Amazon S3 que utilizan una VPC puerta de enlace, consulte ¿Por qué no puedo conectarme a un bucket de S3 mediante un VPC punto de enlace de puerta de enlace?