Otimizar consultas com indexação e filtragem de partições do AWS Glue - Amazon Athena

Otimizar consultas com indexação e filtragem de partições do AWS Glue

Quando o Athena consulta tabelas particionadas, ele recupera e filtra as partições de tabela disponíveis para o subconjunto relevante para a sua consulta. À medida que novos dados e partições são adicionados, mais tempo torna-se necessário para processar as partições, e o runtime da consulta pode aumentar. Se você tiver uma tabela com um grande número de partições que aumenta ao longo do tempo, considere o uso de indexação e filtragem de partições do AWS Glue. A indexação de partições permite que o Athena otimize o processamento das partições e melhore a performance das consulta em tabelas altamente particionadas. A configuração da filtragem de partições nas propriedades de uma tabela é um processo de duas etapas:

  1. Criar um índice de partição em AWS Glue.

  2. Habilitar a filtragem de partições para a tabela.

Criar um índice de partição

Para conhecer as etapas da criação de um índice de partição no AWS Glue, consulte Trabalhar com índices de partição no Guia do desenvolvedor do AWS Glue. Para saber quais são as limitações dos índices de partição no AWS Glue, consulte a seção Sobre índices de partição na mesma página.

Habilitar filtragem de partição

Para habilitar a filtragem de partição para a tabela, você deve definir uma nova propriedade de tabela no AWS Glue. Para conhecer as etapas da definição de propriedades de tabela no AWS Glue, consulte a página Configurar a projeção de partições. Quando você editar os detalhes da tabela no AWS Glue, adicione o seguinte par de chave-valor à seção Table properties (Propriedades de tabela):

  • Para Key (Chave), adicione partition_filtering.enabled

  • Para Value (Valor), adicione true

Você pode desabilitar a filtragem de partições nessa tabela a qualquer momento definindo o valor partition_filtering.enabled como false.

Depois de concluir as etapas acima, você pode retornar ao console do Athena para consultar os dados.

Para mais informações sobre usar a indexação e filtragem de partição, consulte Melhorar o desempenho de consultas Amazon Athena usando índices de partição AWS Glue Data Catalog no Blog de Big Data da AWS.