AWS Glue Data Catalog - AWS Guía prescriptiva

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

AWS Glue Data Catalog

AWS Glue Data Catalog es un repositorio de metadatos centralizado para todos sus activos de datos en varias fuentes de datos. Proporciona una interfaz unificada para almacenar y consultar información sobre los formatos, esquemas y fuentes de datos. Cuando se ejecuta un trabajo de AWS Glue ETL, utiliza este catálogo para comprender la información sobre los datos y asegurarse de que se transforman correctamente.

AWS Glue Data CatalogSe compone de los siguientes componentes:

  • Base de datos y tablas

  • Rastreadores y clasificadores

  • Conexiones

  • Schema Registry

AWS Glue bases de datos y tablas

AWS Glue Data Catalog está organizado en bases de datos y tablas para proporcionar una estructura lógica para almacenar y administrar los metadatos. Esta estructura permite un control preciso del acceso a los datos a nivel de tabla o base de datos mediante AWS Identity and Access Management políticas de (IAM).

Una AWS Glue base de datos puede contener muchas tablas y cada tabla debe estar asociada a una única base de datos. Estas tablas contienen referencias a los datos reales, que se pueden almacenar en cualquiera de las diversas fuentes de datos AWS Glue compatibles. AWS Glue Las tablas también almacenan metadatos esenciales, como nombres de columnas, tipos de datos y claves de partición.

Existen varios métodos para crear una tabla en AWS Glue:

  • AWS Glue rastreador

  • AWS Glue Trabajo de ETL

  • AWS Glue consola

  • Operación CreateTable en la AWS Glue API

  • AWS CloudFormation plantilla

  • AWS Cloud Development Kit (AWS CDK)

  • Un metastore migrado de Apache Hive

AWS Glue rastreadores y clasificadores

Un AWS Glue rastreador descubre y extrae automáticamente los metadatos de un almacén de datos y, a continuación, los actualiza en consecuencia. AWS Glue Data Catalog El rastreador se conecta al banco de datos para deducir el esquema de los datos. A continuación, crea o actualiza las tablas del catálogo de datos con la información del esquema que ha descubierto. Un rastreador puede rastrear tanto almacenes de datos basados en archivos como almacenes de datos basados en tablas. Para obtener más información sobre los almacenes de datos compatibles, consulte ¿Qué almacenes de datos puedo rastrear?

El rastreador utiliza clasificadores para reconocer con precisión el formato de los datos y determinar cómo deben procesarse. De forma predeterminada, el rastreador utiliza un conjunto de clasificadores integrados comunes que proporciona AWS Glue, pero también puede escribir clasificadores personalizados para gestionar casos de uso específicos.

AWS Glue conexiones

Puede usar AWS Glue las conexiones para definir los parámetros de conexión que permiten conectarse AWS Glue a varias fuentes de datos. Añadir conexiones centraliza y simplifica la configuración necesaria para conectarse a estas fuentes.

Al definir una conexión, se especifica el tipo de conexión, el punto de conexión y las credenciales necesarias. Una vez definida una conexión, varios trabajos y rastreadores AWS Glue pueden reutilizarla. El uso de conexiones AWS Glue reduce la necesidad de introducir repetidamente la misma información de conexión, como las credenciales de inicio de sesión o los ID de nube privada virtual (VPC).

AWS Glue Registro de esquemas

El AWS Glue Schema Registry proporciona una ubicación centralizada para administrar y aplicar los esquemas de flujo de datos. Permite que sistemas dispares, como productores y consumidores de datos, compartan un esquema para la serialización y la deserialización. Compartir un esquema ayuda a estos sistemas a comunicarse de manera eficaz y a evitar errores durante la transformación.

El registro de esquemas garantiza que los consumidores de datos intermedios puedan gestionar los cambios realizados anteriormente, ya que conocen el esquema esperado. Admite la evolución de esquemas, de modo que un esquema puede cambiar con el tiempo manteniendo la compatibilidad con versiones anteriores del esquema.

El registro de esquemas se integra con muchos AWS servicios, incluidos Amazon Kinesis Data Streams, Firehose y Amazon Managed Streaming for Apache Kafka Kafka. Para ver ejemplos de casos de uso e integraciones, consulte Integración con Schema Registry. AWS Glue