Seleccione sus preferencias de cookies

Usamos cookies esenciales y herramientas similares que son necesarias para proporcionar nuestro sitio y nuestros servicios. Usamos cookies de rendimiento para recopilar estadísticas anónimas para que podamos entender cómo los clientes usan nuestro sitio y hacer mejoras. Las cookies esenciales no se pueden desactivar, pero puede hacer clic en “Personalizar” o “Rechazar” para rechazar las cookies de rendimiento.

Si está de acuerdo, AWS y los terceros aprobados también utilizarán cookies para proporcionar características útiles del sitio, recordar sus preferencias y mostrar contenido relevante, incluida publicidad relevante. Para aceptar o rechazar todas las cookies no esenciales, haga clic en “Aceptar” o “Rechazar”. Para elegir opciones más detalladas, haga clic en “Personalizar”.

Consideraciones y limitaciones

Modo de enfoque
Consideraciones y limitaciones - AWS Glue

En esta sección se incluyen aspectos que se deben tener en cuenta al utilizar optimizadores de tablas en el AWS Glue Data Catalog.

Formatos compatibles y limitaciones de la compactación de datos administrada

La compactación de datos admite una variedad de tipos de datos y formatos de compresión para leer y escribir datos, incluida la lectura de datos de tablas cifradas.

La compactación de datos admite:

  • Cifrado: La compactación de datos solo admite el cifrado Amazon S3 (SSE-S3) y el cifrado KMS del lado del servidor (SSE-KMS)

  • Compactación de bin pack

  • Puede ejecutar la compactación desde la cuenta en la que reside el catálogo de datos cuando el bucket de Amazon S3 que almacena los datos subyacentes esté en otra cuenta. Para ello, el rol de compactación requiere acceso al bucket de Amazon S3.

La compactación de datos actualmente no admite:

  • Clasificación regular o clasificación en orden Z

  • Compactación en tablas con varias cuentas: No se puede ejecutar la compactación en tablas con varias cuentas

  • Compactación en tablas de varias regiones: No se puede ejecutar la compactación en tablas de varias regiones

  • Habilitar la compactación en los enlaces de recursos

  • Tablas de la clase de almacenamiento de Amazon S3 Express One Zone: no puede ejecutar la compactación en tablas de Iceberg S3 Express One Zone.

Consideraciones sobre los optimizadores de retención de instantáneas y eliminación de archivos huérfanos

Las siguientes consideraciones se aplican a los optimizadores de retención de instantáneas y de eliminación de archivos huérfanos.

  • Los procesos de retención de instantáneas y eliminación de archivos huérfanos tienen un límite máximo de eliminación de 1 000 000 de archivos por ejecución. Al eliminar las instantáneas caducadas, si el número de archivos aptos para su eliminación supera 1 000 000, los archivos restantes que superen ese umbral seguirán existiendo en el almacenamiento de tablas como archivos huérfanos.

  • El optimizador de retención de instantáneas conservará las instantáneas solo cuando se cumplan ambos criterios: el número mínimo de instantáneas que se deben conservar y el periodo de retención especificado.

  • El optimizador de retención de instantáneas elimina los metadatos de las instantáneas caducadas de Apache Iceberg, lo que evita que las consultas sobre las instantáneas caducadas viajen en el tiempo y, de forma opcional, elimina los archivos de datos asociados.

  • El optimizador de eliminación de archivos huérfanos elimina los archivos de datos y metadatos huérfanos a los que los metadatos de Iceberg ya no hacen referencia si su momento de creación es anterior al periodo de retención de la eliminación de archivos huérfanos desde el momento en que se ejecuta el optimizador.

  • Apache Iceberg facilita el control de versiones mediante ramas y etiquetas, denominadas punteros para estados de instantáneas específicos. Cada rama y etiqueta sigue su propio ciclo de vida independiente, regido por las políticas de retención definidas en sus niveles respectivos. Los optimizadores de AWS Glue Data Catalog tienen en cuenta estas políticas de ciclo de vida, lo que garantiza el cumplimiento de las reglas de retención especificadas. Las políticas de retención de rama y etiqueta tienen prioridad sobre las configuraciones del optimizador.

    Para obtener más información, consulte la sección Branching and Tagging de la documentación de Apache Iceberg.

  • Los optimizadores de retención de instantáneas y de eliminación de archivos huérfanos eliminarán los archivos que puedan limpiarse según los parámetros configurados. Mejore su control sobre la eliminación de archivos mediante la implementación de políticas de control de versiones y ciclo de vida de S3 en los buckets correspondientes.

    Para obtener instrucciones detalladas sobre cómo configurar el control de versiones y crear reglas de ciclo de vida, consulte https://docs.aws.amazon.com/AmazonS3/latest/userguide/Versioning.html.

  • Para determinar correctamente los archivos huérfanos, asegúrese de que la ubicación de la tabla proporcionada y las subrutas no se superpongan ni contengan datos de ninguna otra tabla u origen de datos. Si las rutas se superponen, corre el riesgo de sufrir una pérdida de datos irrecuperable debido a la eliminación no intencionada de archivos.

PrivacidadTérminos del sitioPreferencias de cookies
© 2025, Amazon Web Services, Inc o sus afiliados. Todos los derechos reservados.