Seleccione sus preferencias de cookies

Usamos cookies esenciales y herramientas similares que son necesarias para proporcionar nuestro sitio y nuestros servicios. Usamos cookies de rendimiento para recopilar estadísticas anónimas para que podamos entender cómo los clientes usan nuestro sitio y hacer mejoras. Las cookies esenciales no se pueden desactivar, pero puede hacer clic en “Personalizar” o “Rechazar” para rechazar las cookies de rendimiento.

Si está de acuerdo, AWS y los terceros aprobados también utilizarán cookies para proporcionar características útiles del sitio, recordar sus preferencias y mostrar contenido relevante, incluida publicidad relevante. Para aceptar o rechazar todas las cookies no esenciales, haga clic en “Aceptar” o “Rechazar”. Para elegir opciones más detalladas, haga clic en “Personalizar”.

Uso de varios orígenes de datos con un rastreador

Modo de enfoque
Uso de varios orígenes de datos con un rastreador - Amazon Athena

Cuando un rastreador de AWS Glue analiza Amazon S3 y detecta varios directorios, utiliza una heurística para determinar dónde se encuentra la raíz de una tabla en la estructura de directorios y qué directorios son particiones de tabla. En algunos casos en que el esquema detectado en dos o más directorios es similar, el rastreador puede tratarlos como si fueran particiones en vez de tablas diferentes. Una forma de ayudar al rastreador a detectar tablas individuales consiste en añadir el directorio raíz de cada tabla como almacén de datos para el rastreador.

Las siguientes particiones en Amazon S3 son un ejemplo:

s3://amzn-s3-demo-bucket/folder1/table1/partition1/file.txt s3://amzn-s3-demo-bucket/folder1/table1/partition2/file.txt s3://amzn-s3-demo-bucket/folder1/table1/partition3/file.txt s3://amzn-s3-demo-bucket/folder1/table2/partition4/file.txt s3://amzn-s3-demo-bucket/folder1/table2/partition5/file.txt

Si los esquemas de table1 y table2 son similares, y se ha establecido un único origen de datos para s3://amzn-s3-demo-bucket/folder1/ en AWS Glue, el rastreador puede crear una única tabla con dos columnas de partición: una columna de partición que contenga table1 y table2, y otra columna que contenga de partition1 a partition5.

Para que el rastreador de AWS Glue cree dos tablas diferentes configure el rastreador con dos orígenes de datos, s3://amzn-s3-demo-bucket/folder1/table1/ y s3://amzn-s3-demo-bucket/folder1/table2, tal y como se muestra en el siguiente procedimiento.

Para agregar otro almacén de datos de S3 a un rastreador existente en AWS Glue
  1. Inicie sesión en la AWS Management Console y abra la consola de AWS Glue en https://console.aws.amazon.com/glue/.

  2. En el panel de navegación, elija Crawlers (Rastreadores).

  3. Elija el enlace a su rastreador y, a continuación, elija Edit (Editar).

  4. ParaStep 2: Choose data sources and classifiers (Paso 2: Elegir orígenes de datos y clasificadores), elija Edit (Editar).

  5. En Orígenes de datos y catálogos, seleccione Agregar un origen de datos.

  6. En el cuadro de diálogo Add data source (Agregar origen de datos), en S3 path (Ruta de S3), elija Browse (Examinar).

  7. Elija el bucket que desee actualizar y, a continuación, elija Choose (Elegir).

    El origen de datos que ha agregado aparece en la lista Data sources (Orígenes de datos).

  8. Elija Siguiente.

  9. En la página Configurar ajustes de seguridad, cree o elija un rol de IAM para el rastreador y, a continuación, elija Siguiente.

  10. Asegúrese de que la ruta de S3 termina en una barra diagonal y, a continuación, seleccione Add an S3 data source (Agregar un origen de datos de S3).

  11. En la página Set output and scheduling (Definir la salida y la programación), en Output configuration (Configuración de salida), elija la base de datos de destino.

  12. Elija Siguiente.

  13. En la página Review and update (Revisar y actualizar), revise las elecciones que ha realizado. Para editar un paso, seleccione Edit (Editar).

  14. Elija Actualizar.

PrivacidadTérminos del sitioPreferencias de cookies
© 2025, Amazon Web Services, Inc o sus afiliados. Todos los derechos reservados.