Seleccione sus preferencias de cookies

Usamos cookies esenciales y herramientas similares que son necesarias para proporcionar nuestro sitio y nuestros servicios. Usamos cookies de rendimiento para recopilar estadísticas anónimas para que podamos entender cómo los clientes usan nuestro sitio y hacer mejoras. Las cookies esenciales no se pueden desactivar, pero puede hacer clic en “Personalizar” o “Rechazar” para rechazar las cookies de rendimiento.

Si está de acuerdo, AWS y los terceros aprobados también utilizarán cookies para proporcionar características útiles del sitio, recordar sus preferencias y mostrar contenido relevante, incluida publicidad relevante. Para aceptar o rechazar todas las cookies no esenciales, haga clic en “Aceptar” o “Rechazar”. Para elegir opciones más detalladas, haga clic en “Personalizar”.

Optimización de la compactación

Modo de enfoque
Optimización de la compactación - AWS Glue

Los lagos de datos de Amazon S3 que utilizan formatos de tablas abiertos, como Apache Iceberg, almacenan los datos como objetos de S3. Tener miles de objetos pequeños de Amazon S3 en una tabla de lago de datos aumenta la sobrecarga de metadatos y afecta al rendimiento de lectura. AWS Glue Data Catalog proporciona una compactación administrada para tablas de Iceberg, que compacta objetos pequeños en otros más grandes para lograr un mejor rendimiento de lectura mediante servicios de análisis de AWS como Amazon Athena y Amazon EMR, así como trabajos de ETL de AWS Glue. El Catálogo de datos efectúa la compactación sin interferir en las consultas simultáneas y solo admite la compactación en tablas con formato Parquet.

El optimizador de tablas supervisa continuamente las particiones de las tablas e inicia el proceso de compactación cuando se supera el límite de cantidad y tamaño de los archivos.

En el catálogo de datos, el proceso de compactación comienza cuando una tabla o cualquiera de sus particiones tiene más de 100 archivos. Cada archivo debe tener un tamaño inferior al 75 % del tamaño del archivo de destino. El tamaño del archivo de destino se define mediante la propiedad de tabla write.target-file-size-bytes, que por defecto es de 512 MB si no se establece explícitamente.

Para conocer las limitaciones, consulte Formatos compatibles y limitaciones de la compactación de datos administrada .

PrivacidadTérminos del sitioPreferencias de cookies
© 2025, Amazon Web Services, Inc o sus afiliados. Todos los derechos reservados.