Utilice un rastreador para agregar una tabla
Los rastreadores de AWS Glue son útiles para detectar el esquema de conjuntos de datos y registrarlos como tablas en el catálogo de datos de AWS Glue. Los rastreadores revisan sus datos y establecen cuál es el esquema. Además, los rastreadores puede detectar y registrar particiones. Para obtener más información, consulte Definición de rastreadores en la Guía para desarrolladores de AWS Glue. Las tablas de datos que se han rastreado correctamente se pueden consultar desde Athena.
nota
Athena no reconoce los patrones de exclusión que especifica en un rastreador de AWS Glue. Por ejemplo, si tiene un bucket de Amazon S3 que contiene tanto .csv
como .json
y se excluyen los archivos .json
desde el rastreador, Athena consulta ambos grupos de archivos. Para evitar esto, coloque los archivos que desea excluir en una ubicación diferente.
Creación de un rastreador de AWS Glue
Para crear un rastreador, abra la consola de Athena y, a continuación, utilice la consola de AWS Glue de forma integrada. Al crear el rastreador, especifica una ubicación de datos en Amazon S3 para rastrearla.
Para crear un rastreador en AWS Glue desde la consola de Athena
Abra la consola de Athena en https://console.aws.amazon.com/athena/
. -
En el editor de consultas, junto a Tablas y vistas, elija Crear y, a continuación, Rastreador de AWS Glue.
-
En la página Add crawler (Agregar rastreador) de AWS Glue, siga los pasos para crear un rastreador. Para obtener más información, consulte Uso de rastreadores de AWS Glue en esta guía y Rellenar AWS Glue Data Catalog en la Guía para desarrolladores de AWS Glue.
nota
Athena no reconoce los patrones de exclusión que especifica en un rastreador de AWS Glue. Por ejemplo, si tiene un bucket de Amazon S3 que contiene tanto .csv
como .json
y se excluyen los archivos .json
desde el rastreador, Athena consulta ambos grupos de archivos. Para evitar esto, coloque los archivos que desea excluir en una ubicación diferente.
Después de un rastreo, el rastreador de AWS Glue asigna automáticamente determinados metadatos de tabla para hacerlos compatibles con otras tecnologías externas como Apache Hive, Presto y Spark. Ocasionalmente, el rastreador puede asignar incorrectamente las propiedades de los metadatos. Corrija manualmente las propiedades en AWS Glue antes de consultar la tabla con Athena. Para obtener más información, consulte Visualización y edición de los detalles de una tabla en la Guía para desarrolladores de AWS Glue.
AWS Glue puede asignar erróneamente metadatos cuando un archivo CSV tiene todos los campos de datos entre comillas, lo que hace que se interprete incorrectamente la propiedad serializationLib
. Para obtener más información, consulte Manejo de datos de archivos CSV entre comillas.