En esta sección se incluyen aspectos que se deben tener en cuenta al utilizar optimizadores de tablas en el AWS Glue Data Catalog.
Formatos compatibles y limitaciones de la compactación de datos administrada
La compactación de datos admite una variedad de tipos de datos y formatos de compresión para leer y escribir datos, incluida la lectura de datos de tablas cifradas.
La compactación de datos admite:
Cifrado: La compactación de datos solo admite el cifrado Amazon S3 (SSE-S3) y el cifrado KMS del lado del servidor (SSE-KMS)
Compactación de bin pack
-
Puede ejecutar la compactación desde la cuenta en la que reside el catálogo de datos cuando el bucket de Amazon S3 que almacena los datos subyacentes esté en otra cuenta. Para ello, el rol de compactación requiere acceso al bucket de Amazon S3.
La compactación de datos actualmente no admite:
Clasificación regular o clasificación en orden Z
-
Compactación en tablas con varias cuentas: No se puede ejecutar la compactación en tablas con varias cuentas
-
Compactación en tablas de varias regiones: No se puede ejecutar la compactación en tablas de varias regiones
Habilitar la compactación en los enlaces de recursos
-
Tablas de la clase de almacenamiento de Amazon S3 Express One Zone: no puede ejecutar la compactación en tablas de Iceberg S3 Express One Zone.
Consideraciones sobre los optimizadores de retención de instantáneas y eliminación de archivos huérfanos
Las siguientes consideraciones se aplican a los optimizadores de retención de instantáneas y de eliminación de archivos huérfanos.
Los procesos de retención de instantáneas y eliminación de archivos huérfanos tienen un límite máximo de eliminación de 1 000 000 de archivos por ejecución. Al eliminar las instantáneas caducadas, si el número de archivos aptos para su eliminación supera 1 000 000, los archivos restantes que superen ese umbral seguirán existiendo en el almacenamiento de tablas como archivos huérfanos.
-
El optimizador de retención de instantáneas conservará las instantáneas solo cuando se cumplan ambos criterios: el número mínimo de instantáneas que se deben conservar y el periodo de retención especificado.
-
El optimizador de retención de instantáneas elimina los metadatos de las instantáneas caducadas de Apache Iceberg, lo que evita que las consultas sobre las instantáneas caducadas viajen en el tiempo y, de forma opcional, elimina los archivos de datos asociados.
-
El optimizador de eliminación de archivos huérfanos elimina los archivos de datos y metadatos huérfanos a los que los metadatos de Iceberg ya no hacen referencia si su momento de creación es anterior al periodo de retención de la eliminación de archivos huérfanos desde el momento en que se ejecuta el optimizador.
-
Apache Iceberg facilita el control de versiones mediante ramas y etiquetas, denominadas punteros para estados de instantáneas específicos. Cada rama y etiqueta sigue su propio ciclo de vida independiente, regido por las políticas de retención definidas en sus niveles respectivos. Los optimizadores de AWS Glue Data Catalog tienen en cuenta estas políticas de ciclo de vida, lo que garantiza el cumplimiento de las reglas de retención especificadas. Las políticas de retención de rama y etiqueta tienen prioridad sobre las configuraciones del optimizador.
Para obtener más información, consulte la sección Branching and Tagging
de la documentación de Apache Iceberg. -
Los optimizadores de retención de instantáneas y de eliminación de archivos huérfanos eliminarán los archivos que puedan limpiarse según los parámetros configurados. Mejore su control sobre la eliminación de archivos mediante la implementación de políticas de control de versiones y ciclo de vida de S3 en los buckets correspondientes.
Para obtener instrucciones detalladas sobre cómo configurar el control de versiones y crear reglas de ciclo de vida, consulte https://docs.aws.amazon.com/AmazonS3/latest/userguide/Versioning.html.
-
Para determinar correctamente los archivos huérfanos, asegúrese de que la ubicación de la tabla proporcionada y las subrutas no se superpongan ni contengan datos de ninguna otra tabla u origen de datos. Si las rutas se superponen, corre el riesgo de sufrir una pérdida de datos irrecuperable debido a la eliminación no intencionada de archivos.