Selecione suas preferências de cookies

Usamos cookies essenciais e ferramentas semelhantes que são necessárias para fornecer nosso site e serviços. Usamos cookies de desempenho para coletar estatísticas anônimas, para que possamos entender como os clientes usam nosso site e fazer as devidas melhorias. Cookies essenciais não podem ser desativados, mas você pode clicar em “Personalizar” ou “Recusar” para recusar cookies de desempenho.

Se você concordar, a AWS e terceiros aprovados também usarão cookies para fornecer recursos úteis do site, lembrar suas preferências e exibir conteúdo relevante, incluindo publicidade relevante. Para aceitar ou recusar todos os cookies não essenciais, clique em “Aceitar” ou “Recusar”. Para fazer escolhas mais detalhadas, clique em “Personalizar”.

Geração automática de estatísticas de colunas

Modo de foco
Geração automática de estatísticas de colunas - AWS Glue

A geração automática de estatísticas de colunas permite a você agendar e calcular automaticamente estatísticas em novas tabelas no AWS Glue Data Catalog. Quando a geração automática de estatísticas é habilitada, o Catálogo de Dados descobre novas tabelas com formatos de dados específicos, como Parquet, JSON, CSV, XML, ORC, ION e Apache Iceberg, junto com seus caminhos de bucket individuais. Com uma configuração única de catálogo, o Catálogo de Dados gera estatísticas para essas tabelas.

Os administradores do Data Lake podem configurar a geração de estatísticas selecionando o catálogo padrão no console do Lake Formation e habilitando as estatísticas da tabela usando a opção Optimization configuration. Quando você cria novas tabelas ou atualiza tabelas existentes no Catálogo de Dados, o Catálogo de Dados coleta semanalmente o número de valores distintos (NDVs) das tabelas do Apache Iceberg e estatísticas adicionais, como o número de nulos, tamanho máximo, mínimo e médio de outros formatos de arquivo compatíveis.

Se você configurou a geração de estatísticas no nível da tabela ou se já excluiu as configurações de geração de estatísticas de uma tabela, essas configurações específicas da tabela têm precedência sobre as configurações padrão do catálogo para a geração automática de estatísticas de coluna.

A tarefa de geração automática de estatísticas analisa 20% dos registros nas tabelas para calcular estatísticas. A geração automática de estatísticas de colunas garante que o catálogo de dados tenha as estatísticas mais recentes que podem ser usadas por mecanismos de consulta como Amazon Athena e Amazon Redshift Spectrum para melhorar a performance das consultas e reduzir custos potenciais. Isso permite programar a geração de estatísticas usando APIs ou o console do AWS Glue, fornecendo um processo automatizado sem intervenção manual.

PrivacidadeTermos do sitePreferências de cookies
© 2025, Amazon Web Services, Inc. ou suas afiliadas. Todos os direitos reservados.