AWS Glue Data Catalog - AWS Orientação prescritiva

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

AWS Glue Data Catalog

O AWS Glue Data Catalog é um repositório centralizado de metadados para todos os seus ativos de dados em várias fontes de dados. Ele fornece uma interface unificada para armazenar e consultar informações sobre formatos, esquemas e fontes de dados. Quando uma tarefa de AWS Glue ETL é executada, ela usa esse catálogo para entender as informações sobre os dados e garantir que eles sejam transformados corretamente.

O AWS Glue Data Catalogé composto pelos seguintes componentes:

  • Bancos de dados e tabelas

  • Crawlers e classificadores

  • Conexões

  • Registro de esquemas

AWS Glue bancos de dados e tabelas

O AWS Glue Data Catalog é organizado em bancos de dados e tabelas para fornecer uma estrutura lógica para armazenar e gerenciar metadados. Essa estrutura oferece suporte ao controle preciso do acesso aos dados em nível de tabela ou banco de dados usando Políticas (IAM) do AWS Identity and Access Management.

Um AWS Glue banco de dados pode conter várias tabelas, e cada tabela deve estar associada a um único banco de dados. Essas tabelas contêm referências aos dados reais, que podem ser armazenados em qualquer uma das várias fontes de dados AWS Glue suportadas. AWS Glue as tabelas também armazenam metadados essenciais, como nomes de colunas, tipos de dados e chaves de partição.

Há vários métodos diferentes para criar uma tabela em AWS Glue:

  • AWS Glue rastejador

  • AWS Glue Trabalho de ETL

  • AWS Glue console

  • Operação do CreateTable na API AWS Glue

  • AWS CloudFormation modelo

  • AWS Cloud Development Kit (AWS CDK)

  • Uma metastore migrada do Apache Hive

AWS Glue rastreadores e classificadores

Um AWS Glue rastreador descobre e extrai automaticamente os metadados de um armazenamento de dados e, em seguida, os atualiza adequadamente. AWS Glue Data Catalog O crawler se conecta ao armazenamento de dados para inferir o esquema dos dados. Em seguida, ele cria ou atualiza tabelas no Catálogo de Dados com as informações do esquema que descobriu. Um crawler pode rastrear armazenamentos de dados baseados em arquivos e baseados em tabelas. Para saber mais sobre armazenamentos de dados compatíveis, consulte Com quais armazenamentos de dados posso fazer crawling?

O crawler usa classificadores para reconhecer com precisão o formato dos dados e determinar como eles devem ser processados. Por padrão, o rastreador usa um conjunto de classificadores integrados comuns fornecidos pelo AWS Glue, mas você também pode escrever classificadores personalizados para lidar com casos de uso específicos.

AWS Glue conexões

Você pode usar AWS Glue conexões para definir parâmetros de conexão que permitem AWS Glue a conexão com várias fontes de dados. A adição de conexões centraliza e simplifica a configuração necessária para se conectar a essas fontes.

Ao definir uma conexão, você especifica o tipo de conexão, o endpoint da conexão e todas as credenciais necessárias. Depois que uma conexão é definida, ela pode ser reutilizada por vários trabalhos e crawlers do AWS Glue . O uso de conexões com AWS Glue reduz a necessidade de inserir repetidamente as mesmas informações de conexão, como credenciais de login ou IDs de nuvem privada virtual (VPC).

AWS Glue Registro de esquemas

O Registro de esquemas do AWS Glue fornece um local centralizado para gerenciar e aplicar esquemas de fluxo de dados. Ele permite que sistemas diferentes, como produtores e consumidores de dados, compartilhem um esquema para serialização e desserialização. Compartilhar um esquema ajuda esses sistemas a se comunicarem de forma eficaz e evitarem erros durante a transformação.

O Registro do Esquema garante que os consumidores de dados posteriores possam lidar com as alterações feitas a montante, pois estão cientes do esquema esperado. Ele suporta a evolução do esquema, para que um esquema possa mudar com o tempo, mantendo a compatibilidade com as versões anteriores do esquema.

O Schema Registry se integra a vários AWS serviços, incluindo Amazon Kinesis Data Streams, Firehose e Amazon Managed Streaming for Apache Kafka. Para exemplos de casos de uso e integrações, consulte Integração com o AWS Glue Schema Registry.