Comprensión de las tablas, las bases de datos y los catálogos de datos en Athena
En Athena, los catálogos, las bases de datos y las tablas son contenedores en los que se incluyen las definiciones de los metadatos que definen un esquema para los datos de orígenes subyacentes.
Athena utiliza los siguientes términos para referirse a las jerarquías de los objetos de datos:
-
Origen de datos: un grupo de bases de datos.
-
Base de datos: un grupo de tablas.
-
Tabla: datos organizados como un grupo de filas o columnas.
En ocasiones, también se hace referencia a estos objetos con nombres alternativos pero equivalentes, como los siguientes:
-
Un origen de datos es lo que a veces se denomina catálogo.
-
Una base de datos es lo que a veces se denomina esquema.
nota
Esta terminología puede variar en los orígenes de datos federados que utilice con Athena. Para obtener más información, consulte Descripción de los calificadores de nombres de tablas federadas.
En la siguiente consulta de ejemplo en la consola de Athena, se utiliza el origen de datos awsdatacatalog
, la base de datos default
y la tabla some_table
.
Para cada conjunto de datos debe existir una tabla en Athena. Los metadatos de la tabla indican a Athena dónde se encuentran los datos en Amazon S3 y especifican su estructura; por ejemplo los nombres de columna, los tipos de datos y el nombre de la tabla. Las bases de datos son una agrupación lógica de tablas y contienen únicamente información de metadatos y esquema para un conjunto de datos.
Para cada conjunto de datos que desee consultar, Athena debe tener una tabla subyacente que usará para obtener y devolver los resultados de las consultas. Por lo tanto, para poder consultar los datos es necesario haber registrado previamente una tabla en Athena. El registro se produce al crear las tablas de forma automática o manual.
Puede crear una tabla de forma automática mediante un rastreador de AWS Glue. Para obtener más información sobre AWS Glue y rastreadores, consulte Utilice AWS Glue para conectar Athena con los datos que tiene en Amazon S3. Cuando AWS Glue crea una tabla, la registra en su propio catálogo de datos de AWS Glue. Athena utiliza el catálogo de datos de AWS Glue para almacenar y recuperar estos metadatos, y los utiliza cuando se ejecutan consultas para analizar el conjunto de datos subyacente.
Independientemente de cómo se creen las tablas, su proceso de creación registra el conjunto de datos con Athena. Este registro se produce en AWS Glue Data Catalog y le permite a Athena ejecutar consultas sobre los datos. En el editor de consultas de Athena, se hace referencia a este catálogo (u origen de datos) con la etiqueta AwsDataCatalog
.
Después de crear una tabla, puede utilizar las instrucciones de SQL SELECT para consultarla, incluida la obtención de ubicaciones de archivo específicas para los datos de origen. Los resultados de la consulta se almacenan en la ubicación de resultados de consulta que especifique en Amazon S3.
El acceso al catálogo de datos de AWS Glue es posible a través de su cuenta de Amazon Web Services. Otros Servicios de AWS pueden compartir el catálogo de datos de AWS Glue, por lo que podrá ver bases de datos y tablas creadas en toda la organización mediante Athena y viceversa.
-
Para crear una tabla manualmente:
-
Utilice la consola de Athena para ejecutar el Asistente de creación de tablas.
-
Utilice la consola de Athena para escribir instrucciones DDL de Hive en el Editor de consultas.
-
Utilice la API o la CLI de Athena para ejecutar una cadena con una consulta SQL que contenga instrucciones DDL.
-
Utilice el controlador JDBC u ODBC de Athena.
-
Al crear tablas y bases de datos manualmente, Athena utiliza instrucciones de lenguaje de definición de datos (DDL) de HiveQL como CREATE TABLE
, CREATE DATABASE
y DROP TABLE
, internamente, para crear tablas y bases de datos en el AWS Glue Data Catalog.
Para comenzar, puede utilizar un tutorial en la consola de Athena o seguir una guía paso a paso en la documentación de Athena.
-
Para utilizar el tutorial en la consola de Athena, elija el icono de información en la parte superior derecha de la consola y, a continuación, seleccione la pestaña Tutorial.
-
Para ver un tutorial paso a paso sobre cómo crear una tabla y escribir consultas en el editor de consultas de Athena, consulte Introducción.