Cuando un rastreador de AWS Glue analiza Amazon S3 y detecta varios directorios, utiliza una heurística para determinar dónde se encuentra la raíz de una tabla en la estructura de directorios y qué directorios son particiones de tabla. En algunos casos en que el esquema detectado en dos o más directorios es similar, el rastreador puede tratarlos como si fueran particiones en vez de tablas diferentes. Una forma de ayudar al rastreador a detectar tablas individuales consiste en añadir el directorio raíz de cada tabla como almacén de datos para el rastreador.
Las siguientes particiones en Amazon S3 son un ejemplo:
s3://amzn-s3-demo-bucket/folder1/table1/partition1/file.txt
s3://amzn-s3-demo-bucket/folder1/table1/partition2/file.txt
s3://amzn-s3-demo-bucket/folder1/table1/partition3/file.txt
s3://amzn-s3-demo-bucket/folder1/table2/partition4/file.txt
s3://amzn-s3-demo-bucket/folder1/table2/partition5/file.txt
Si los esquemas de table1
y table2
son similares, y se ha establecido un único origen de datos para s3://amzn-s3-demo-bucket/folder1/
en AWS Glue, el rastreador puede crear una única tabla con dos columnas de partición: una columna de partición que contenga table1
y table2
, y otra columna que contenga de partition1
a partition5
.
Para que el rastreador de AWS Glue cree dos tablas diferentes configure el rastreador con dos orígenes de datos, s3://amzn-s3-demo-bucket/folder1/table1/
y s3://amzn-s3-demo-bucket/folder1/table2
, tal y como se muestra en el siguiente procedimiento.
Para agregar otro almacén de datos de S3 a un rastreador existente en AWS Glue
Inicie sesión en la AWS Management Console y abra la consola de AWS Glue en https://console.aws.amazon.com/glue/
. -
En el panel de navegación, elija Crawlers (Rastreadores).
-
Elija el enlace a su rastreador y, a continuación, elija Edit (Editar).
-
ParaStep 2: Choose data sources and classifiers (Paso 2: Elegir orígenes de datos y clasificadores), elija Edit (Editar).
-
En Orígenes de datos y catálogos, seleccione Agregar un origen de datos.
-
En el cuadro de diálogo Add data source (Agregar origen de datos), en S3 path (Ruta de S3), elija Browse (Examinar).
-
Elija el bucket que desee actualizar y, a continuación, elija Choose (Elegir).
El origen de datos que ha agregado aparece en la lista Data sources (Orígenes de datos).
-
Elija Siguiente.
-
En la página Configurar ajustes de seguridad, cree o elija un rol de IAM para el rastreador y, a continuación, elija Siguiente.
-
Asegúrese de que la ruta de S3 termina en una barra diagonal y, a continuación, seleccione Add an S3 data source (Agregar un origen de datos de S3).
-
En la página Set output and scheduling (Definir la salida y la programación), en Output configuration (Configuración de salida), elija la base de datos de destino.
-
Elija Siguiente.
-
En la página Review and update (Revisar y actualizar), revise las elecciones que ha realizado. Para editar un paso, seleccione Edit (Editar).
-
Elija Actualizar.