Otimizar a performance da consulta para tabelas Iceberg
Apache Iceberg é um formato de tabela aberta de alta performance para grandes conjuntos de dados analíticos. O AWS Glue é compatível com o cálculo e a atualização do número de valores distintos (NDVs) para cada coluna nas tabelas Iceberg. Essas estatísticas podem facilitar uma melhor otimização de consultas, gerenciamento de dados e eficiência de performance para cientistas e engenheiros de dados que trabalham com conjuntos de dados em grande escala.
O AWS Glue estima o número de valores distintos em cada coluna da tabela Iceberg e os armazena em arquivos Puffin
Você pode configurar para executar a tarefa de geração de estatísticas de coluna usando o console do AWS Glue ou a AWS CLI. Quando você inicia o processo, o AWS Glue inicia um trabalho do Spark em segundo plano e atualiza os metadados da tabela AWS Glue no Catálogo de Dados. Você pode visualizar as estatísticas da coluna usando o console do AWS Glue ou a AWS CLI ou chamando a operação da API GetColumnStatisticsForTable.
nota
Se você estiver usando as permissões do AWS Lake Formation para controlar o acesso à tabela, o perfil assumido pela tarefa de estatísticas da coluna exigirá acesso total à tabela para gerar estatísticas.