Habilitación de la eliminación de archivos huérfanos
Puede usar la consola de AWS Glue, la AWS CLI o la API de AWS para habilitar la eliminación de archivos huérfanos de las tablas Apache Iceberg en el Catálogo de datos. Para las tablas nuevas, puede elegir Apache Iceberg como formato de tabla y habilitar el optimizador de eliminación de archivos huérfanos al crear la tabla. La retención de instantáneas está deshabilitada de forma predeterminada para las tablas nuevas.
- Console
-
Para habilitar la eliminación de archivos huérfanos
-
Abra la consola de AWS Glue en https://console.aws.amazon.com/glue/
e inicie sesión como administrador del lago de datos, creador de la tabla o usuario al que se le hayan concedido los permisos glue:UpdateTable
ylakeformation:GetDataAccess
de la tabla. -
En el panel de navegación, en Catálogo de datos, elija Tablas.
En la página Tablas, elija una tabla de Iceberg en la que quiera habilitar la eliminación de archivos huérfanos.
Seleccione la pestaña Optimización de la tabla en la sección inferior de la página y seleccione Activar, Eliminación de archivos huérfanos en Acciones.
También puede seleccionar Activar en Optimización en el menú Acciones ubicado en la esquina superior derecha de la página.
-
En la página Habilitar la optimización, seleccione Eliminación de archivos huérfanos en Opciones de optimización.
-
Si elige usar Configuración predeterminada, todos los archivos huérfanos se eliminarán después de 3 días. Si desea conservar los archivos huérfanos durante un número específico de días, seleccione Personalizar configuración.
-
A continuación, elija un rol de IAM con los permisos necesarios para eliminar archivos huérfanos.
-
Si tiene configuraciones de políticas de seguridad en las que el optimizador de tablas de Iceberg necesita acceder a los buckets de Amazon S3 desde una nube privada virtual (VPC) específica, cree una conexión de red de AWS Glue o utilice una existente.
Si aún no tiene configurada una conexión de VPC de AWS Glue, cree una nueva según los pasos de la sección Creating connections for connectors mediante la consola de AWS Glue, la AWS CLI o los SDK.
-
Si elige Personalizar configuración, ingrese el número de días que se van a retener los archivos antes de eliminarlos en Configuración de eliminación de archivos huérfanos.
-
Seleccione Habilitar la optimización.
-
- AWS CLI
-
Para habilitar la eliminación de archivos huérfanos en una tabla de Iceberg de AWS Glue, debe crear un optimizador de tablas de tipo
orphan_file_deletion
y establecer el campoenabled
en verdadero. Para crear un optimizador de eliminación de archivos huérfanos para una tabla de Iceberg mediante la AWS CLI, puede utilizar el siguiente comando:aws glue create-table-optimizer \ --catalog-id
123456789012
\ --database-nameiceberg_db
\ --table-nameiceberg_table
\ --table-optimizer-configuration '{"roleArn":"arn:aws:iam::123456789012
:role/optimizer_role
","enabled":true, "vpcConfiguration":{ "glueConnectionName":"glue_connection_name"
}, "orphanFileDeletionConfiguration":{"icebergConfiguration":{"orphanFileRetentionPeriodInDays":3
, "location":'S3 location
'}}}'\ --type orphan_file_deletionEste comando crea un optimizador de eliminación de archivos huérfanos para la tabla de Iceberg especificada. Los parámetros clave son:
-
roleArn: ARN del rol de IAM con permisos para acceder al bucket de S3 y a los recursos de Glue.
-
enabled: se establece en verdadero para habilitar el optimizador.
-
orphanFileRetentionPeriodInDays: el número de días necesarios para retener los archivos huérfanos antes de eliminarlos (mínimo 1 día).
-
type: se establece en orphan_file_deletion para crear un optimizador de eliminación de archivos huérfanos.
Tras crear el optimizador de tablas, eliminará los archivos huérfanos periódicamente (una vez al día si se deja habilitado). Puede comprobar las ejecuciones mediante la API
list-table-optimizer-runs
. El trabajo de eliminación de archivos huérfanos identificará y eliminará los archivos sin seguimiento en los metadatos de Iceberg de la tabla. -
- API
-
Llame a la operación CreateTableOptimizer para crear el optimizador de eliminación de archivos huérfanos para una tabla específica.