Los lagos de datos de Amazon S3 que utilizan formatos de tablas abiertos, como Apache Iceberg, almacenan los datos como objetos de S3. Tener miles de objetos pequeños de Amazon S3 en una tabla de lago de datos aumenta la sobrecarga de metadatos y afecta al rendimiento de lectura. AWS Glue Data Catalog proporciona una compactación administrada para tablas de Iceberg, que compacta objetos pequeños en otros más grandes para lograr un mejor rendimiento de lectura mediante servicios de análisis de AWS como Amazon Athena y Amazon EMR, así como trabajos de ETL de AWS Glue. El Catálogo de datos efectúa la compactación sin interferir en las consultas simultáneas y solo admite la compactación en tablas con formato Parquet.
El optimizador de tablas supervisa continuamente las particiones de las tablas e inicia el proceso de compactación cuando se supera el límite de cantidad y tamaño de los archivos.
En el catálogo de datos, el proceso de compactación comienza cuando una tabla o cualquiera de sus particiones tiene más de 100 archivos. Cada archivo debe tener un tamaño inferior al 75 % del tamaño del archivo de destino. El tamaño del archivo de destino se define mediante la propiedad de tabla write.target-file-size-bytes
, que por defecto es de 512 MB si no se establece explícitamente.
Para conocer las limitaciones, consulte Formatos compatibles y limitaciones de la compactación de datos administrada .