Conexión con orígenes de datos - Amazon Athena

Conexión con orígenes de datos

Puede utilizar Amazon Athena para consultar datos almacenados en diferentes ubicaciones y formatos en un conjunto de datos. Este conjunto de datos puede estar en formato CSV, JSON, Avro, Parquet u cualquier otro.

Las tablas y bases de datos con las que trabaja Athena para ejecutar consultas se basan en metadatos. Los metadatos son datos sobre los datos subyacentes del conjunto de datos. La forma en que los metadatos describen su conjunto de datos se denomina esquema. Por ejemplo, un nombre de tabla, los nombres de columna de la tabla y el tipo de datos de cada columna son esquemas, guardados como metadatos, que describen un conjunto de datos subyacente. En Athena, denominamos al sistema para organizar metadatos catálogo de datos o metaalmacén. La combinación de un conjunto de datos y el catálogo de datos que lo describe se denomina “origen de datos”.

La relación de los metadatos con un conjunto de datos subyacente depende del tipo de origen de datos con el que trabaje. Los orígenes de datos relacionales como MySQL, PostgreSQL y SQL Server integran estrechamente los metadatos con el conjunto de datos. En estos sistemas, los metadatos se escriben con mayor frecuencia cuando se escriben los datos. Otros orígenes de datos, como los creados con Hive, le permiten definir metadatos sobre la marcha cuando se lee el conjunto de datos. El conjunto de datos puede estar en una variedad de formatos, por ejemplo, CSV, JSON, Parquet o Avro.

Athena admite AWS Glue Data Catalog de forma nativa. El AWS Glue Data Catalog es un catálogo de datos creado sobre otros conjuntos de datos y orígenes de datos como Amazon S3, Amazon Redshift y Amazon DynamoDB. También puede conectar Athena a otros orígenes de datos mediante una variedad de conectores.