Detección y catalogación de datos en AWS Glue - AWS Glue

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Detección y catalogación de datos en AWS Glue

El AWS Glue Data Catalog es un repositorio centralizado que almacena metadatos sobre los conjuntos de datos de su organización. Actúa como un índice para las métricas de tiempo de ejecución, esquema y ubicación de sus orígenes de datos. Los metadatos se almacenan en tablas de metadatos, en las que cada tabla representa un único almacén de datos.

Para completar el Catálogo de datos, puede usar un rastreador, que escanea automáticamente los orígenes de datos y extrae los metadatos. Los rastreadores pueden conectarse a orígenes de datos internos (basados en AWS) y externos a AWS.

Para obtener más información sobre los orígenes de datos compatibles, consulte Orígenes de datos admitidos para el rastreo.

También puede crear tablas en el Catálogo de datos manualmente, para lo cual debe definir la estructura de la tabla, el esquema y la estructura de particiones de acuerdo con sus requisitos específicos.

Para obtener más información sobre la creación manual de tablas de metadatos, consulte Cómo definir los metadatos manualmente.

Puede usar la información del Catálogo de datos para crear y supervisar sus trabajos de ETL. El Catálogo de datos se integra con otros servicios de análisis de AWS y proporciona una vista unificada de los orígenes de datos, lo que facilita la administración y el análisis de los datos.

  • Amazon Athena: Almacene y consulte los metadatos de las tablas en el Catálogo de datos para los datos de Amazon S3 con SQL.

  • AWS Lake Formation: Defina y administre las políticas de acceso a los datos detalladas y audite el acceso a los datos de forma centralizada.

  • Amazon EMR: Acceda a los orígenes de datos definidos en el Catálogo de datos para el procesamiento de macrodatos.

  • Amazon SageMaker: Cree, entrene e implemente modelos de machine learning de forma rápida y segura.

Características clave del Catálogo de datos

A continuación se detallan los aspectos clave del Catálogo de datos.

Repositorio de metadatos

El Catálogo de datos actúa como un repositorio central de metadatos y almacena información sobre la ubicación, el esquema y las propiedades de los orígenes de datos. Estos metadatos se organizan en bases de datos y tablas, de forma similar a un catálogo de una base de datos relacional tradicional.

Detección automática de datos

Los Rastreador de AWS Glue pueden detectar y catalogar los orígenes de datos nuevos o actualizados automáticamente, lo que reduce la sobrecarga de la administración manual de los metadatos y garantiza que su Catálogo de datos permanezca actualizado. Al catalogar sus orígenes de datos, el Catálogo de datos facilita a los usuarios y las aplicaciones la detección y la comprensión de los activos de datos disponibles en su organización, lo que promueve la reutilización de los datos y la colaboración.

El Catálogo de datos es compatible con una amplia gama de orígenes de datos, incluidos Amazon S3, Amazon RDS, Amazon Redshift y Apache Hive, entre otros. Puede inferir y almacenar metadatos de estos orígenes automáticamente mediante el uso de Rastreador de AWS Glue.

Para obtener más información, consulte, Uso de rastreadores para completar el Catálogo de datos .

Administración de esquemas

El Catálogo de datos captura y administra automáticamente el esquema de sus orígenes de datos, incluida la inferencia, la evolución y el control de versiones del esquema. Para actualizar el esquema y las particiones del Catálogo de datos, puede usar los trabajos de ETL de AWS Glue.

Optimización de tablas

Para mejorar el rendimiento de lectura de los servicios de análisis de AWS, como Amazon Athena, Amazon EMR, y los trabajos de ETL de AWS Glue, el Catálogo de datos ofrece una compactación administrada (un proceso que compacta objetos pequeños de Amazon S3 para convertirlos en objetos más grandes) para procesar las tablas de Iceberg del Catálogo de datos. Puede usar la consola de AWS Glue, la consola de AWS Lake Formation, la AWS CLI o la API de AWS para activar o desactivar la compactación de las tablas de Iceberg individuales que están en el Catálogo de datos.

Para obtener más información, consulte Optimización de las tablas de Iceberg.

Estadísticas de las columnas

Puede calcular las estadísticas a nivel de columna para las tablas del Catálogo de datos en formatos de datos como Parquet, ORC, JSON, ION, CSV y XML sin necesidad de configurar canalizaciones de datos adicionales. Las estadísticas de columnas le ayudan a entender los perfiles de datos al obtener información sobre los valores de una columna. El Catálogo de datos permite generar estadísticas para los valores de las columnas, como los valores mínimo y máximo, los valores nulos totales y distintos totales, la longitud media de los valores y el total de apariciones de valores verdaderos.

Para obtener más información, consulte Cómo optimizar el rendimiento de las consultas con las estadísticas de columnas.

Linaje de datos

El Catálogo de datos mantiene un registro de las transformaciones y operaciones realizadas con los datos, y proporciona información sobre el linaje de los datos. Esta información sobre el linaje es valiosa para la auditoría, el cumplimiento y la comprensión de la procedencia de los datos.

Integración con otros servicios de AWS

El Catálogo de datos se integra perfectamente con otros servicios de AWS, como AWS Lake Formation, Amazon Athena, Amazon Redshift Spectrum y Amazon EMR. Esta integración le permite consultar y analizar los datos de varios almacenes de datos mediante el uso de una única capa de metadatos coherente.

Seguridad y control de acceso

AWS Glue se integra con AWS Lake Formation para promover un control minucioso del acceso a los recursos del Catálogo de datos, lo que le permite administrar los permisos y proteger el acceso a sus activos de datos en función de las políticas y los requisitos de su organización. AWS Glue se integra con AWS Key Management Service (AWS KMS) para cifrar los metadatos almacenados en el Catálogo de datos.