Otimizar tabelas Iceberg
O AWS Glue é compatível com várias opções de otimização de tabela para aprimorar o gerenciamento e a performance das tabelas do Apache Iceberg usadas pelos mecanismos analíticos da AWS e pelos trabalhos de ETL. Esses otimizadores fornecem utilização eficiente do espaço em disco, melhor performance de consultas e gerenciamento de dados. Existem três tipos de otimizadores de tabela disponíveis no AWS Glue:
Compactação: a compactação de dados compacta pequenos arquivos de dados para reduzir o uso de armazenamento e melhorar a performance de leitura. Os arquivos de dados são mesclados e regravados para remover dados obsoletos e consolidar dados fragmentados em arquivos maiores e mais eficientes. A compactação pode ser configurada para ser executada automaticamente ou acionada manualmente conforme necessário.
Retenção de snapshots: os snapshots são versões com carimbo de data e hora de uma tabela do Iceberg. As configurações de retenção de snapshots permitem que os clientes determinem por quanto tempo reter e quantos snapshots devem ser retidos. A configuração de um otimizador de retenção de snapshots pode ajudar a gerenciar a sobrecarga de armazenamento removendo snapshots antigos e desnecessários e seus arquivos subjacentes.
Exclusão de arquivos órfãos: arquivos órfãos são arquivos que não são mais referidos pelos metadados da tabela do Iceberg. Esses arquivos podem se acumular ao longo do tempo, especialmente após operações como exclusões de tabelas ou trabalhos de ETL com falha. Habilitar a exclusão de arquivos órfãos permite que o AWS Glue identifique e remova periodicamente esses arquivos desnecessários, liberando espaço de armazenamento.
É possível habilitar ou desabilitar a compactação, a retenção de snapshots e os otimizadores de exclusão de arquivos órfãos para tabelas Iceberg individuais usando o console do AWS Glue, a AWS CLI ou as operações de API do AWS Glue.
O vídeo a seguir demonstra como configurar otimizadores para tabelas do Iceberg no Catálogo de dados.