Selecione suas preferências de cookies

Usamos cookies essenciais e ferramentas semelhantes que são necessárias para fornecer nosso site e serviços. Usamos cookies de desempenho para coletar estatísticas anônimas, para que possamos entender como os clientes usam nosso site e fazer as devidas melhorias. Cookies essenciais não podem ser desativados, mas você pode clicar em “Personalizar” ou “Recusar” para recusar cookies de desempenho.

Se você concordar, a AWS e terceiros aprovados também usarão cookies para fornecer recursos úteis do site, lembrar suas preferências e exibir conteúdo relevante, incluindo publicidade relevante. Para aceitar ou recusar todos os cookies não essenciais, clique em “Aceitar” ou “Recusar”. Para fazer escolhas mais detalhadas, clique em “Personalizar”.

Gerando estatísticas de colunas em um cronograma

Modo de foco
Gerando estatísticas de colunas em um cronograma - AWS Glue

Siga estas etapas para configurar um cronograma para gerar estatísticas de coluna no AWS Glue Data Catalog uso do AWS Glue console AWS CLI, do ou da CreateColumnStatisticsTaskSettingsoperação.

Console
Para gerar estatísticas de colunas usando o console
  1. Faça login no AWS Glue console em https://console.aws.amazon.com/glue/.

  2. Escolha uma tabela do Catálogo de Dados.

  3. Escolha uma tabela na lista.

  4. Escolha a guia Estatísticas da coluna na seção inferior da página Tabelas.

  5. Você também pode escolher Gerar de acordo com o cronograma em Estatísticas da coluna em Ações.

  6. Na página Gerar estatísticas na agenda, configure uma agenda recorrente para executar a tarefa de estatísticas da coluna escolhendo a frequência e a hora de início. Você pode escolher a frequência para ser horária, diária, semanal ou definir uma expressão cron para especificar a programação.

    Uma expressão cron é uma string que representa um padrão de agendamento, consistindo em 6 campos separados por espaços: * * * * * <minute><hour><day of month><month><day of week><year>Por exemplo, para executar uma tarefa todos os dias à meia-noite, a expressão cron seria: 0 0 * *? *

    Para obter mais informações, consulte Expressões cron.

    A captura de tela mostra as opções disponíveis para gerar estatísticas da coluna.
  7. Em seguida, escolha a opção de coluna para gerar estatísticas.

    • Todas as colunas: escolha essa opção para gerar estatísticas para todas as colunas na tabela.

    • Colunas selecionadas: escolha essa opção para gerar estatísticas para colunas específicas. É possível selecionar as colunas na lista suspensa.

  8. Escolha uma IAM função ou crie uma função existente que tenha permissões para gerar estatísticas. AWS Glue assume essa função para gerar estatísticas de colunas.

    Uma abordagem mais rápida é deixar o AWS Glue console criar uma função para você. A função que ele cria é especificamente para gerar estatísticas de colunas e inclui a política AWSGlueServiceRole AWS gerenciada mais a política embutida necessária para a fonte de dados especificada.

    Se você especificar uma função existente para gerar estatísticas de coluna, certifique-se de que ela inclua a AWSGlueServiceRole política ou equivalente (ou uma versão com escopo reduzido dessa política), além das políticas embutidas necessárias.

  9. (Opcional) Em seguida, escolha uma configuração de segurança para ativar a criptografia em repouso para logs.

  10. (Opcional) Você pode escolher um tamanho de amostra indicando somente uma porcentagem específica de linhas da tabela para gerar estatísticas. O padrão é todas as linhas. Use as setas para cima e para baixo para aumentar ou diminuir o valor percentual.

    Recomendamos incluir todas as linhas na tabela para calcular estatísticas precisas. Use as linhas de exemplo para gerar estatísticas de coluna somente quando valores aproximados forem aceitáveis.

  11. Escolha Gerar estatísticas para executar a tarefa de geração de estatísticas da coluna.

AWS CLI

Você pode usar o AWS CLI exemplo a seguir para criar um cronograma de geração de estatísticas de coluna. O nome do banco de dados, o nome da tabela e a função são parâmetros obrigatórios, e os parâmetros opcionais são agenda, id do catálogo column-name-list, tamanho da amostra e configuração de segurança.

aws glue create-column-statistics-task-settings \ --database-name 'database_name' \ --table-name table_name \ --role 'arn:aws:iam::123456789012:role/stats-role' \ --schedule 'cron(0 0-5 14 * * ?)' \ --column-name-list 'col-1' \ --catalog-id '123456789012' \ --sample-size '10.0 ' \ --security-configuration 'test-security'

Você também pode gerar estatísticas de coluna chamando a StartColumnStatisticsTaskRunoperação.

Para gerar estatísticas de colunas usando o console
  1. Faça login no AWS Glue console em https://console.aws.amazon.com/glue/.

  2. Escolha uma tabela do Catálogo de Dados.

  3. Escolha uma tabela na lista.

  4. Escolha a guia Estatísticas da coluna na seção inferior da página Tabelas.

  5. Você também pode escolher Gerar de acordo com o cronograma em Estatísticas da coluna em Ações.

  6. Na página Gerar estatísticas na agenda, configure uma agenda recorrente para executar a tarefa de estatísticas da coluna escolhendo a frequência e a hora de início. Você pode escolher a frequência para ser horária, diária, semanal ou definir uma expressão cron para especificar a programação.

    Uma expressão cron é uma string que representa um padrão de agendamento, consistindo em 6 campos separados por espaços: * * * * * <minute><hour><day of month><month><day of week><year>Por exemplo, para executar uma tarefa todos os dias à meia-noite, a expressão cron seria: 0 0 * *? *

    Para obter mais informações, consulte Expressões cron.

    A captura de tela mostra as opções disponíveis para gerar estatísticas da coluna.
  7. Em seguida, escolha a opção de coluna para gerar estatísticas.

    • Todas as colunas: escolha essa opção para gerar estatísticas para todas as colunas na tabela.

    • Colunas selecionadas: escolha essa opção para gerar estatísticas para colunas específicas. É possível selecionar as colunas na lista suspensa.

  8. Escolha uma IAM função ou crie uma função existente que tenha permissões para gerar estatísticas. AWS Glue assume essa função para gerar estatísticas de colunas.

    Uma abordagem mais rápida é deixar o AWS Glue console criar uma função para você. A função que ele cria é especificamente para gerar estatísticas de colunas e inclui a política AWSGlueServiceRole AWS gerenciada mais a política embutida necessária para a fonte de dados especificada.

    Se você especificar uma função existente para gerar estatísticas de coluna, certifique-se de que ela inclua a AWSGlueServiceRole política ou equivalente (ou uma versão com escopo reduzido dessa política), além das políticas embutidas necessárias.

  9. (Opcional) Em seguida, escolha uma configuração de segurança para ativar a criptografia em repouso para logs.

  10. (Opcional) Você pode escolher um tamanho de amostra indicando somente uma porcentagem específica de linhas da tabela para gerar estatísticas. O padrão é todas as linhas. Use as setas para cima e para baixo para aumentar ou diminuir o valor percentual.

    Recomendamos incluir todas as linhas na tabela para calcular estatísticas precisas. Use as linhas de exemplo para gerar estatísticas de coluna somente quando valores aproximados forem aceitáveis.

  11. Escolha Gerar estatísticas para executar a tarefa de geração de estatísticas da coluna.

PrivacidadeTermos do sitePreferências de cookies
© 2025, Amazon Web Services, Inc. ou suas afiliadas. Todos os direitos reservados.