Optimización de la compactación - AWS Adherencia

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Optimización de la compactación

Los lagos de datos de Amazon S3 que utilizan formatos de tablas abiertos, como Apache Iceberg, almacenan los datos como objetos de S3. Tener miles de objetos pequeños de Amazon S3 en una tabla de lago de datos aumenta la sobrecarga de metadatos y afecta al rendimiento de lectura. AWS Glue Data Catalog proporciona una compactación gestionada para las tablas Iceberg, ya que permite compactar objetos pequeños en otros más grandes para mejorar el rendimiento de lectura mediante AWS servicios de análisis como Amazon Athena y AmazonEMR, y AWS Glue ETLempleos. El Catálogo de datos efectúa la compactación sin interferir en las consultas simultáneas y solo admite la compactación en tablas con formato Parquet.

El optimizador de tablas supervisa continuamente las particiones de las tablas e inicia el proceso de compactación cuando se supera el límite de cantidad y tamaño de los archivos.

En el catálogo de datos, el proceso de compactación comienza y continuará si la tabla o alguna de las particiones de la tabla tiene más de cinco archivos, cada uno de ellos con un tamaño inferior al 75% del archivo de destino (actualmente establecido en 64 MB).

Para conocer los tipos de datos, los formatos de compresión y las limitaciones compatibles, consulte Formatos compatibles y limitaciones de la compactación de datos administrada .