Programar crawls incrementais para adicionar novas partições - AWS Glue

Programar crawls incrementais para adicionar novas partições

É possível configurar crawls incrementais de uma execução do Crawler do AWS Glue para adicionar somente novas partições ao esquema da tabela. Quando o crawler é executado pela primeira vez, ele executa um crawl completo para processar toda a fonte de dados para registrar o esquema completo e todas as partições existentes no AWS Glue Data Catalog.

Os crawls subsequentes após o crawl completo inicial serão incrementais, em que o crawler identifica e adiciona somente as novas partições que foram introduzidas desde o crawl anterior. Essa abordagem resulta em tempos de crawl mais rápidos, pois o crawler não precisa mais processar toda a fonte de dados para cada execução, mas se concentra apenas nas novas partições.

nota

Os crawls incrementais não detectam modificações ou exclusões de partições existentes. Essa configuração é mais adequada para fontes de dados com um esquema estável. Se ocorrer uma única alteração importante no esquema, é recomendável configurar temporariamente o crawler para realizar um crawl completo a fim de capturar o novo esquema com precisão e, em seguida, voltar ao modo de crawling incremental.

O diagrama a seguir mostra que, com a configuração de crawl incremental ativada, o crawler detectará e adicionará somente a pasta recém-adicionada, month=March, ao catálogo.

O diagrama a seguir mostra que os arquivos do mês de março foram adicionados.

Siga estas etapas para atualizar seu crawler para realizar crawls incrementais:

AWS Management Console
  1. Faça login no AWS Management Console e abra o console do AWS Glue em https://console.aws.amazon.com/glue/.

  2. Escolha Crawlers no Catálogo de dados.

  3. Escolha um crawler que você deseja configurar para fazer o crawl incrementalmente.

  4. Selecione a opção Editar.

  5. Escolha a Etapa 2. Escolha as fontes de dados e os classificadores.

  6. Escolha a fonte de dados em que você deseja fazer o crawl incrementalmente.

  7. Selecione a opção Editar.

  8. Escolha Fazer crawl somente em novas subpastas em Execuções subsequentes do crawler.

  9. Selecione Atualizar.

Para criar uma programação para um crawler, consulte Programar um crawler.

AWS CLI
aws glue update-crawler \ --name myCrawler \ --recrawl-policy RecrawlBehavior=CRAWL_NEW_FOLDERS_ONLY \ --schema-change-policy UpdateBehavior=LOG,DeleteBehavior=LOG
Notas e restrições

Quando essa opção está ativada, não é possível alterar os armazenamentos de dados de destino do Amazon S3 ao editar o crawler. Essa opção afeta determinadas definições de configuração do crawler. Quando ativada, ela força o comportamento de atualização e de exclusão do crawler para LOG. Isto significa que:

  • Se descobrir objetos nos quais os esquemas não são compatíveis, o crawler não adicionará os objetos no Catálogo de Dados e adicionará esse detalhe como um log no CloudWatch Logs.

  • Ele não atualizará objetos excluídos no Catálogo de dados.