Siga estas etapas para configurar um cronograma para gerar estatísticas de coluna no AWS Glue Data Catalog uso do AWS Glue console AWS CLI, do ou da CreateColumnStatisticsTaskSettingsoperação.
Para gerar estatísticas de colunas usando o console
-
Faça login no AWS Glue console em https://console.aws.amazon.com/glue/
. -
Escolha uma tabela do Catálogo de Dados.
-
Escolha uma tabela na lista.
-
Escolha a guia Estatísticas da coluna na seção inferior da página Tabelas.
-
Você também pode escolher Gerar de acordo com o cronograma em Estatísticas da coluna em Ações.
-
Na página Gerar estatísticas na agenda, configure uma agenda recorrente para executar a tarefa de estatísticas da coluna escolhendo a frequência e a hora de início. Você pode escolher a frequência para ser horária, diária, semanal ou definir uma expressão cron para especificar a programação.
Uma expressão cron é uma string que representa um padrão de agendamento, consistindo em 6 campos separados por espaços: * * * * * <minute><hour><day of month><month><day of week><year>Por exemplo, para executar uma tarefa todos os dias à meia-noite, a expressão cron seria: 0 0 * *? *
Para obter mais informações, consulte Expressões cron.
Em seguida, escolha a opção de coluna para gerar estatísticas.
-
Todas as colunas: escolha essa opção para gerar estatísticas para todas as colunas na tabela.
-
Colunas selecionadas: escolha essa opção para gerar estatísticas para colunas específicas. É possível selecionar as colunas na lista suspensa.
-
Escolha uma IAM função ou crie uma função existente que tenha permissões para gerar estatísticas. AWS Glue assume essa função para gerar estatísticas de colunas.
Uma abordagem mais rápida é deixar o AWS Glue console criar uma função para você. A função que ele cria é especificamente para gerar estatísticas de colunas e inclui a política
AWSGlueServiceRole
AWS gerenciada mais a política embutida necessária para a fonte de dados especificada.Se você especificar uma função existente para gerar estatísticas de coluna, certifique-se de que ela inclua a
AWSGlueServiceRole
política ou equivalente (ou uma versão com escopo reduzido dessa política), além das políticas embutidas necessárias.-
(Opcional) Em seguida, escolha uma configuração de segurança para ativar a criptografia em repouso para logs.
-
(Opcional) Você pode escolher um tamanho de amostra indicando somente uma porcentagem específica de linhas da tabela para gerar estatísticas. O padrão é todas as linhas. Use as setas para cima e para baixo para aumentar ou diminuir o valor percentual.
Recomendamos incluir todas as linhas na tabela para calcular estatísticas precisas. Use as linhas de exemplo para gerar estatísticas de coluna somente quando valores aproximados forem aceitáveis.
-
Escolha Gerar estatísticas para executar a tarefa de geração de estatísticas da coluna.