Otimização da compactação - AWS União

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Otimização da compactação

Os data lakes do Amazon S3 usando formatos de tabela aberta, como o Apache Iceberg, armazenam dados como objetos do S3. Ter milhares de objetos pequenos do Amazon S3 em uma tabela de data lake aumenta a sobrecarga de metadados e afeta o desempenho de leitura. AWS Glue Data Catalog fornece compactação gerenciada para tabelas Iceberg, compactando objetos pequenos em objetos maiores para melhor desempenho de leitura por AWS serviços de análise como Amazon Athena e a AmazonEMR, e AWS Glue ETLempregos. O Catálogo de Dados executa compactação sem interferir nas consultas simultâneas e é compatível com compactação somente para tabelas no formato Parquet.

O otimizador de tabelas monitora constantemente as partições da tabela e inicia o processo de compactação quando o limite é excedido para o número de arquivos e tamanhos de arquivo.

No Catálogo de Dados, o processo de compactação é iniciado e continuará se a tabela ou qualquer uma das partições dentro da tabela tiver mais de cinco arquivos, cada um menor que 75% do tamanho do arquivo de destino (atualmente definido como 64 MB).

Para conhecer tipos de dados, formatos de compactação e limitações compatíveis, consulte Formatos e limitações compatíveis para compactação gerenciada de dados .