

# Orígenes de datos admitidos para el rastreo
<a name="crawler-data-stores"></a>

Los rastreadores pueden rastrear los siguientes almacenes de datos basados en archivos y almacenes de datos basados en tablas.


| Tipo de acceso que utiliza el rastreador | Almacenes de datos | 
| --- | --- | 
| Cliente nativo |  [See the AWS documentation website for more details](http://docs.aws.amazon.com/es_es/glue/latest/dg/crawler-data-stores.html)  | 
| JDBC | Amazon Redshift<br />Snowflake<br />Dentro de Amazon Relational Database Service (Amazon RDS) o externo a Amazon RDS:[See the AWS documentation website for more details](http://docs.aws.amazon.com/es_es/glue/latest/dg/crawler-data-stores.html) | 
| Cliente de MongoDB |  [See the AWS documentation website for more details](http://docs.aws.amazon.com/es_es/glue/latest/dg/crawler-data-stores.html)  | 

**nota**  
Actualmente, AWS Glue no admite rastreadores para transmisiones de datos.

Para los almacenes de datos JDBC, MongoDB, MongoDB Atlas y Amazon DocumentDB (con compatibilidad con MongoDB), debe especificar una *conexión* de AWS Glue que el rastreador pueda usar para conectarse al almacén de datos. Para Amazon S3, puede especificar opcionalmente una conexión de tipo Red. Una conexión es un objeto del Catálogo de datos que almacena información de conexión, como credenciales, URL, información de Amazon Virtual Private Cloud, etc. Para obtener más información, consulte [Conexión a datos](glue-connections.md).

A continuación se enumeran las versiones de controladores compatibles con el rastreador:


| Producto | Controlador compatible con el rastreador | 
| --- | --- | 
| PostgreSQL | 42.2.1 | 
| Amazon Aurora | Igual que los controladores de rastreadores nativos | 
| MariaDB | 8.0.13 | 
| Microsoft SQL Server | 6.1.0 | 
| MySQL | 8.0.13 | 
| Oracle | 11.2.2 | 
| Amazon Redshift | 4.1 | 
| Snowflake | 3.13.20 | 
| MongoDB | 4.7.2 | 
| MongoDB Atlas | 4.7.2 | 

A continuación, se muestran notas sobre los distintos almacenes de datos.

**Amazon S3**  
Puede elegir rastrear una ruta en su cuenta o en otra cuenta. Si todos los archivos de Amazon S3 de una carpeta tienen el mismo esquema, el rastreador crea una tabla. Además, si el objeto de Amazon S3 está particionado, solo se crea una tabla de metadatos y se agrega información de particiones al Catálogo de datos de esa tabla.

**Amazon S3 y Amazon DynamoDB**  
Los rastreadores utilizan un rol de AWS Identity and Access Management (IAM) para obtener permiso y acceder a sus almacenes de datos. *El rol que se transfiere al rastreador debe tener permiso para obtener acceso a las rutas de Amazon S3 y a las tablas de Amazon DynamoDB que se rastrean*.

**Amazon DynamoDB**  
Al definir un rastreador mediante la consola de AWS Glue, especifica una tabla de DynamoDB. Si usa la API de AWS Glue, especifica una lista de tablas. Puede elegir rastrear sólo una pequeña muestra de los datos para reducir los tiempos de ejecución del rastreador.

**Delta Lake**  
En cada almacén de datos de Delta Lake, debe especificar cómo crear tablas de Delta:  
+ **Crear tablas nativas**: se permite la integración a los motores de consulta que permiten consultar el registro de transacciones de Delta directamente. Para obtener más información, consulte [Consultar las tablas de Delta Lake](https://docs.aws.amazon.com/athena/latest/ug/delta-lake-tables.html).
+ **Crear tablas de enlaces simbólicos**: se crea una carpeta de `_symlink_manifest` con los archivos de manifiesto particionados mediante las claves de partición en función de los parámetros de configuración especificados.

**Iceberg**  
Para cada almacén de datos de Iceberg, debe especificar una ruta de Amazon S3 que contenga los metadatos de las tablas de Iceberg. Si el rastreador descubre metadatos de tablas de Iceberg, los registra en el Data Catalog. Puede establecer una programación para que el rastreador mantenga las tablas actualizadas.  
Puede definir estos parámetros para el almacén de datos:  
+ **Exclusiones**: permite omitir determinadas carpetas.
+ **Profundidad máxima de recorrido**: establece el límite de profundidad que el rastreador puede rastrear en su bucket de Amazon S3. La profundidad de recorrido máxima predeterminada es 10 y la profundidad máxima que puede establecer es 20.

**Hudi**  
Para cada almacén de datos de Hudi, debe especificar una ruta de Amazon S3 que contenga los metadatos de las tablas de Hudi. Si el rastreador descubre metadatos de la tabla de Hudi, los registra en el Data Catalog. Puede establecer una programación para que el rastreador mantenga las tablas actualizadas.  
Puede definir estos parámetros para el almacén de datos:  
+ **Exclusiones**: permite omitir determinadas carpetas.
+ **Profundidad máxima de recorrido**: establece el límite de profundidad que el rastreador puede rastrear en su bucket de Amazon S3. La profundidad de recorrido máxima predeterminada es 10 y la profundidad máxima que puede establecer es 20.
Las columnas de marcas temporales con tipos lógicos `millis` se interpretarán como `bigint` debido a una incompatibilidad con Hudi 0.13.1 y los tipos de marcas temporales. Es posible que se proporcione una solución en la próxima versión de Hudi.
Las tablas Hudi se clasifican de la siguiente manera, con implicaciones específicas para cada una de ellas:  
+ Copiar al escribir (CoW): los datos se almacenan en un formato de columnas (Parquet) y cada actualización crea una nueva versión de los archivos durante una escritura.
+ Fusionar al leer (MoR): los datos se almacenan mediante la utilización de un formato que combina columnas (Parquet) y filas (Avro). Las actualizaciones se registran en archivos delta basados en filas y se compactan según sea necesario para crear nuevas versiones de los archivos en columnas.
Con los datasets de tipo CoW, cada vez que se produce una actualización de un registro, el archivo que contiene el registro se vuelve a escribir con los valores actualizados. Con un conjunto de datos de tipo MoR, cada vez que hay una actualización, Hudi escribe solo la fila correspondiente al registro modificado. MoR es más adecuado para cargas de trabajo con gran cantidad de escrituras o cambios y menos lecturas. CoW es más adecuado para cargas de trabajo con gran cantidad de lecturas con datos que cambian con menos frecuencia.  
Hudi ofrece tres tipos de consulta para acceder a los datos:  
+ Consultas de instantáneas: consultas que ven la última instantánea de la tabla a partir de una acción de confirmación o compactación determinada. Para las tablas MoR, las consultas de instantáneas exponen el estado más reciente de la tabla mediante la combinación de los archivos base y delta del segmento de archivos más reciente en el momento de la consulta.
+ Consultas progresivas: consultas que solo ven los nuevos datos escritos en la tabla, desde una confirmación o compactación determinada. Esto proporciona flujos de cambio de manera efectiva para habilitar canalizaciones de datos incrementales.
+ Consultas optimizadas para lectura: para las tablas de MoR, las consultas ven compactados los datos más recientes. Para las tablas CoW, las consultas ven los últimos datos confirmados.
En el caso de las tablas Copiar al escribir, los rastreadores crean una sola tabla en el Data Catalog con el serde ReadOptimized `org.apache.hudi.hadoop.HoodieParquetInputFormat`.  
En el caso de las tablas Fusionar al leer, el rastreador crea dos tablas en el Data Catalog para la misma ubicación de la tabla:  
+ Tabla con un sufijo `_ro` que utiliza el serde ReadOptimized `org.apache.hudi.hadoop.HoodieParquetInputFormat`.
+ Una tabla con un sufijo `_rt` que utiliza el serde RealTime para realizar consultas instantáneas: `org.apache.hudi.hadoop.realtime.HoodieParquetRealtimeInputFormat`.

**MongoDB y Amazon DocumentDB (compatible con MongoDB)**  
Las versiones 3.2 y posteriores de MongoDB son compatibles. Puede elegir rastrear sólo una pequeña muestra de los datos para reducir los tiempos de ejecución del rastreador.

**Base de datos relacional**  
La autenticación se realiza con un nombre de usuario y una contraseña de base de datos. En función del tipo de motor de base de datos, puede elegir qué objetos se rastrean, como bases de datos, esquemas y tablas.

**Snowflake**  
El rastreador de JDBC de Snowflake permite rastrear la tabla, la tabla externa, la vista y la vista materializada. La definición de vista materializada no se rellenará.  
En el caso de las tablas externas de Snowflake, el rastreador solo llevará a cabo el rastreo si apunta a una ubicación de Amazon S3. Además del esquema de la tabla, el rastreador también rastreará la ubicación de Amazon S3, el formato de archivo y la salida como parámetros de tabla en la tabla del Catálogo de datos. Tenga en cuenta que la información de particiones de la tabla externa particionada no se rellena.  
Actualmente, el proceso de ETL no es compatible con las tablas del Catálogo de datos creadas con el rastreador de Snowflake.