Habilitar a geração automática de estatísticas em nível de catálogo - AWS Glue

Habilitar a geração automática de estatísticas em nível de catálogo

É possível habilitar a geração automática de estatísticas de colunas para todas as novas tabelas do Apache Iceberg e tabelas em formatos não OTF (Parquet, JSON, CSV, XML, ORC, ION) no Catálogo de Dados. Depois de criar a tabela, você também poderá atualizar explicitamente as configurações de estatísticas de coluna manualmente.

Para atualizar as configurações do Catálogo de Dados para habilitar o nível do catálogo, o perfil do IAM usado deve ter a permissão glue:UpdateCatalog ou a permissão ALTER CATALOG do AWS Lake Formation no catálogo raiz. É possível usar a API GetCatalog para verificar as propriedades do catálogo.

AWS Management Console
Para habilitar a geração automática de estatísticas de colunas no nível da conta
  1. Abra o console do Lake Formation em https://console.aws.amazon.com/lakeformation/.

  2. No painel de navegação à esquerda, escolha Catálogos).

  3. Na página Resumo do catálogo, escolha Editar em Configuração da otimização.

    A captura de tela mostra as opções disponíveis para gerar estatísticas da coluna.
  4. Na página Configuração da otimização de tabelas, escolha a opção Habilitar geração automática de estatísticas para as tabelas do catálogo.

    A captura de tela mostra as opções disponíveis para gerar estatísticas da coluna.
  5. Escolha um perfil do IAM existente ou crie um novo com as permissões necessárias para executar a tarefa de estatísticas de coluna.

  6. Selecione Enviar.

AWS CLI

Você também pode habilitar a coleta de estatísticas em nível de catálogo via AWS CLI. Para configurar a coleta de estatísticas em nível de tabela usando a AWS CLI, execute o seguinte comando:

aws glue update-catalog --cli-input-json '{
    "name": "123456789012",
    "catalogInput": {
        "description": "Updating root catalog with role arn",
        "catalogProperties": {
            "customProperties": {
                "ColumnStatistics.RoleArn": "arn:aws:iam::"123456789012":role/service-role/AWSGlueServiceRole",
                "ColumnStatistics.Enabled": "true"
            }
        }
    }
}'
                   

O comando acima chama a operação UpdateCatalog do AWS Glue, que usa uma estrutura CatalogProperties com os seguintes pares de chave-valor para geração de estatísticas em nível de catálogo:

  • ColumnStatistics.RoleArn: ARN do perfil do IAM a ser usado para todas as tarefas acionadas para geração de estatísticas em nível de catálogo

  • ColumnStatistics.Enabled: booleano que indica se as configurações em nível de catálogo estão habilitadas ou desabilitadas