As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Usar crawlers para preencher o catálogo de dados
Você pode usar um Crawler do AWS Glue para preencher o AWS Glue Data Catalog com bancos de dados e tabelas. Este é o principal método usado pela maioria dos usuários do AWS Glue. Um crawler pode rastrear vários armazenamentos de dados em uma única execução. Após a conclusão, o crawler cria ou atualiza uma ou mais tabelas no Data Catalog. As tarefas de extração, transformação e carregamento (ETL) que você define no AWS Glue usam essas tabelas do Data Catalog como fontes e destinos. O trabalho de ETL lê e grava os armazenamentos de dados que são especificados nas tabelas do Data Catalog de fonte e de destino.
Fluxo de trabalho
O seguinte diagrama de fluxo de trabalho mostra como os crawlers do AWS Glue interagem com os armazenamentos de dados e outros elementos para preencher o Data Catalog.
![Fluxo de trabalho que mostra como o crawler do AWS Glue preenche o Data Catalog em cinco etapas básicas.](images/PopulateCatalog-overview.png)
Veja a seguir o fluxo de trabalho geral sobre como um crawler preenche o AWS Glue Data Catalog:
-
Um crawler executa todos os classificadores personalizados que você escolhe para inferir o formato e o esquema dos seus dados. Você fornece o código para classificadores personalizados, e eles são executados na ordem especificada.
O primeiro classificador personalizado a reconhecer com sucesso a estrutura de dados é usado para criar um esquema. Os classificadores personalizados em posições inferiores na lista são ignorados.
-
Se nenhum classificador personalizado corresponder ao esquema dos seus dados, os classificadores integrados tentarão reconhecê-lo. Um exemplo de um classificador integrado é um que reconhece JSON.
-
O crawler se conecta ao armazenamento de dados. Alguns armazenamentos de dados requerem propriedades de conexão para o acesso ao crawler.
-
O esquema inferido é criado para os seus dados.
-
O crawler grava os metadados no Data Catalog. Uma definição de tabela contém metadados sobre os dados no seu armazenamento de dados. A tabela é gravada em um banco de dados, que é um contêiner de tabelas no Data Catalog. Os atributos de uma tabela incluem a classificação, que é um rótulo criado pelo classificador que inferiu o esquema da tabela.
Tópicos
- Como funcionam os crawlers
- Quais armazenamentos de dados posso rastrear?
- Como um crawler determina quando criar partições?
- Pré-requisitos do crawler
- Configurar um crawler
- Adicionar classificadores a um crawler no AWS Glue
- Programar um crawler do AWS Glue
- Visualizar resultados e detalhes do crawler
- Personalizar o comportamento do Crawler
- Tutorial: Adicionar um crawler do AWS Glue