Habilitación de la eliminación de archivos huérfanos - AWS Glue

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Habilitación de la eliminación de archivos huérfanos

Puede usar la consola de AWS Glue, la AWS CLI o la API de AWS para habilitar la eliminación de archivos huérfanos de las tablas Apache Iceberg en el Catálogo de datos. Para las tablas nuevas, puede elegir Apache Iceberg como formato de tabla y habilitar el optimizador de eliminación de archivos huérfanos al crear la tabla. La retención de instantáneas está deshabilitada de forma predeterminada para las tablas nuevas.

Console
Para habilitar la eliminación de archivos huérfanos
  1. Abra la consola de AWS Glue en https://console.aws.amazon.com/glue/ e inicie sesión como administrador del lago de datos, creador de la tabla o usuario al que se le hayan concedido los permisos glue:UpdateTable y lakeformation:GetDataAccess de la tabla.

  2. En el panel de navegación, en Catálogo de datos, elija Tablas.

  3. En la página Tablas, elija una tabla de Iceberg en la que quiera habilitar la eliminación de archivos huérfanos.

    Seleccione la pestaña Optimización de la tabla en la sección inferior de la página y seleccione Activar, Eliminación de archivos huérfanos en Acciones.

    También puede seleccionar Activar en Optimización en el menú Acciones ubicado en la esquina superior derecha de la página.

  4. En la página Habilitar la optimización, seleccione Eliminación de archivos huérfanos en Opciones de optimización.

  5. Si elige usar Configuración predeterminada, todos los archivos huérfanos se eliminarán después de 3 días. Si desea conservar los archivos huérfanos durante un número específico de días, seleccione Personalizar configuración.

  6. A continuación, elija un rol de IAM con los permisos necesarios para eliminar archivos huérfanos.

  7. Si elige Personalizar configuración, ingrese el número de días que se van a retener los archivos antes de eliminarlos en Configuración de eliminación de archivos huérfanos.

  8. Seleccione Habilitar la optimización.

AWS CLI

Para habilitar la eliminación de archivos huérfanos en una tabla de Iceberg de AWS Glue, debe crear un optimizador de tablas de tipo orphan_file_deletion y establecer el campo enabled en verdadero. Para crear un optimizador de eliminación de archivos huérfanos para una tabla de Iceberg mediante la AWS CLI, puede utilizar el siguiente comando:

aws glue create-table-optimizer \ --catalog-id 123456789012 \ --database-name iceberg_db \ --table-name iceberg_table \ --table-optimizer-configuration '{"roleArn":"arn:aws:iam::123456789012:role/optimizer_role","enabled":true,"orphanFileDeletionConfiguration":{"icebergConfiguration":{"orphanFileRetentionPeriodInDays":3, "location":'S3 location'}}}'\ --type orphan_file_deletion

Este comando crea un optimizador de eliminación de archivos huérfanos para la tabla de Iceberg especificada. Los parámetros clave son:

  • roleArn: ARN del rol de IAM con permisos para acceder al bucket de S3 y a los recursos de Glue.

  • enabled: se establece en verdadero para habilitar el optimizador.

  • orphanFileRetentionPeriodInDays: el número de días necesarios para retener los archivos huérfanos antes de eliminarlos (mínimo 1 día).

  • type: se establece en orphan_file_deletion para crear un optimizador de eliminación de archivos huérfanos.

Tras crear el optimizador de tablas, eliminará los archivos huérfanos periódicamente (una vez al día si se deja habilitado). Puede comprobar las ejecuciones mediante la API list-table-optimizer-runs. El trabajo de eliminación de archivos huérfanos identificará y eliminará los archivos sin seguimiento en los metadatos de Iceberg de la tabla.

API

Llame a la operación CreateTableOptimizer para crear el optimizador de eliminación de archivos huérfanos para una tabla específica.