Você pode usar o console do AWS Glue, a AWS CLI, ou a API da AWS para habilitar a compactação de tabelas Apache Iceberg no Catálogo de Dados do AWS Glue. Para novas tabelas, você pode escolher o Apache Iceberg como formato de tabela e ativar a compactação ao criar a tabela. A compactação está desabilitada por padrão para novas tabelas.
Para habilitar compactação
-
Abra o console do AWS Glue em https://console.aws.amazon.com/glue/
e faça login como administrador do data lake, criador da tabela ou um usuário que tenha recebido as permissões glue:UpdateTable
elakeformation:GetDataAccess
na tabela. -
No painel de navegação, em Catálogo de dados, escolha Tabelas.
Na página Tabelas, escolha uma tabela em formato de tabela aberta para a qual você deseja habilitar a compactação e, em seguida, no menu Ações, escolha Optimização e Habilitar.
Você também pode habilitar a compactação selecionando a tabela Otimização de tabela e abrindo a página Detalhes da tabela. Escolha a guia Otimização de tabela na seção inferior da página e escolha Ativar compactação.
A opção Ativar otimização também está disponível ao criar uma nova tabela Iceberg no Catálogo de Dados.
-
Na página Habilitar otimização, escolha Compactação em Opções de otimização.
-
Em seguida, selecione um perfil do IAM na lista suspensa com as permissões mostradas na seção Pré-requisitos de otimização de tabelas .
Você também pode escolher a opção Criar um novo perfil do IAM para criar um perfil personalizado com as permissões necessárias para executar a compactação.
Siga as etapas abaixo para atualizar um perfil do IAM existente:
-
Para atualizar a política de permissões para o perfil do IAM, no console do IAM, acesse a função do IAM que está sendo usada para executar a compactação.
-
Na seção Adicionar permissões, escolha Criar política. Na janela recém-aberta do navegador, crie uma nova política para usar com sua função.
-
Na página Criar política, escolha a guia
JSON
. Copie o código JSON mostrado nos Pré-requisitos no campo do editor de políticas.
-
-
Se você tiver configurações de política de segurança em que o otimizador de tabelas do Iceberg precise acessar buckets do Amazon S3 de uma Nuvem Privada Virtual (VPC) específica, crie uma conexão de rede do AWS Glue ou use uma existente.
Se você ainda não tiver uma conexão VPC do AWS Glue configurada, crie uma seguindo as etapas na seção Creating connections for connectors usando o console do AWS Glue ou a AWS CLI/o SDK.
-
Escolha Habilitar otimização.
Depois de ativar a compactação, a guia Otimização de tabela mostra os seguintes detalhes da compactação (após aproximadamente 15 a 20 minutos):
- Horário de início
-
A hora em que o processo de compactação iniciou no Catálogo de Dados. O valor é um timestamp no horário UTC.
- Horário de término
-
A hora em que o processo de compactação terminou no catálogo de dados. O valor é um timestamp no horário UTC.
- Status
-
O status de execução da compactação. Os valores são sucesso ou falha.
- Arquivos compactados
Número total de arquivos compactados.
- Bytes compactados
-
Número total de bytes compactados.