Habilitar a geração automática de estatísticas em nível de catálogo
É possível habilitar a geração automática de estatísticas de colunas para todas as novas tabelas do Apache Iceberg e tabelas em formatos não OTF (Parquet, JSON, CSV, XML, ORC, ION) no Catálogo de Dados. Depois de criar a tabela, você também poderá atualizar explicitamente as configurações de estatísticas de coluna manualmente.
Para atualizar as configurações do Catálogo de Dados para habilitar o nível do catálogo, o perfil do IAM usado deve ter a permissão glue:UpdateCatalog
ou a permissão ALTER CATALOG
do AWS Lake Formation no catálogo raiz. É possível usar a API GetCatalog
para verificar as propriedades do catálogo.
- AWS Management Console
-
Para habilitar a geração automática de estatísticas de colunas no nível da conta
Abra o console do Lake Formation em https://console.aws.amazon.com/lakeformation/.
No painel de navegação à esquerda, escolha Catálogos).
Na página Resumo do catálogo, escolha Editar em Configuração da otimização.
-
Na página Configuração da otimização de tabelas, escolha a opção Habilitar geração automática de estatísticas para as tabelas do catálogo.
-
Escolha um perfil do IAM existente ou crie um novo com as permissões necessárias para executar a tarefa de estatísticas de coluna.
-
Selecione Enviar.
- AWS CLI
-
Você também pode habilitar a coleta de estatísticas em nível de catálogo via AWS CLI. Para configurar a coleta de estatísticas em nível de tabela usando a AWS CLI, execute o seguinte comando:
aws glue update-catalog --cli-input-json '{
"name": "123456789012"
,
"catalogInput": {
"description": "Updating root catalog with role arn",
"catalogProperties": {
"customProperties": {
"ColumnStatistics.RoleArn": "arn:aws:iam::"123456789012"
:role/service-role/AWSGlueServiceRole",
"ColumnStatistics.Enabled": "true"
}
}
}
}'
O comando acima chama a operação UpdateCatalog
do AWS Glue, que usa uma estrutura CatalogProperties
com os seguintes pares de chave-valor para geração de estatísticas em nível de catálogo:
-
ColumnStatistics.RoleArn: ARN do perfil do IAM a ser usado para todas as tarefas acionadas para geração de estatísticas em nível de catálogo
-
ColumnStatistics.Enabled: booleano que indica se as configurações em nível de catálogo estão habilitadas ou desabilitadas