Activación del optimizador de compactación - AWS Glue

Activación del optimizador de compactación

Puede usar la consola de AWS Glue, la AWS CLI o la API de AWS para activar la compactación de sus tablas de Apache Iceberg en el Catálogo de datos de AWS Glue. Para las tablas nuevas, puede elegir Apache Iceberg como formato de tabla y habilitar la compactación al crear la tabla. La compactación está deshabilitada de forma predeterminada para las tablas nuevas.

Console
Habilitación de la compactación
  1. Abra la consola de AWS Glue en https://console.aws.amazon.com/glue/ e inicie sesión como administrador del lago de datos, creador de la tabla o usuario al que se le hayan concedido los permisos glue:UpdateTable y lakeformation:GetDataAccess de la tabla.

  2. En el panel de navegación, en Catálogo de datos, elija Tablas.

  3. En la página Tablas, elija una tabla en formato de tabla abierta para la que desee activar la compactación y, a continuación, en el menú Acciones, elija Optimización y, por último, Activar.

    Para activar la compactación, también puede seleccionar la pestaña Optimización de la tabla en la página Detalles de la tabla. Seleccione la pestaña Optimización de tablas en la sección inferior de la página y elija Habilitar la compactación.

    La opción Activar optimización también está disponible al crear una nueva tabla de Iceberg en el Catálogo de datos.

  4. En la página Activar optimización, seleccione Compactación en Opciones de optimización.

    Página de detalles de la tabla Apache Iceberg con la opción para habilitar la compactación.
  5. A continuación, seleccione un rol de IAM en el menú desplegable con los permisos que se muestran en la sección Requisitos previos para la optimización de tablas .

    También puede elegir la opción Crear un nuevo rol de IAM para crear un rol personalizado con los permisos necesarios para ejecutar la compactación.

    Siga los pasos que se indican a continuación para actualizar un rol de IAM existente:

    1. Para actualizar la política de permisos del rol de IAM, en la consola de IAM, vaya al rol de IAM que se está utilizando para ejecutar la compactación.

    2. En la sección Agregar permisos, seleccione Crear política. En la ventana del navegador que se acaba de abrir, cree una nueva política para utilizarla con su rol.

    3. En la página Crear política, elija la pestaña JSON. Copie el código JSON que se muestra en la sección Requisitos previos en el campo del editor de políticas.

  6. Si tiene configuraciones de políticas de seguridad en las que el optimizador de tablas de Iceberg necesita acceder a los buckets de Amazon S3 desde una nube privada virtual (VPC) específica, cree una conexión de red de AWS Glue o utilice una existente.

    Si aún no tiene configurada una conexión de VPC de AWS Glue, cree una nueva según los pasos de la sección Creating connections for connectors mediante la consola de AWS Glue, la AWS CLI o los SDK.

  7. Seleccione Habilitar la optimización.

AWS CLI

En el ejemplo siguiente se muestra cómo habilitar la compactación. Sustituya el ID de cuenta por un ID de cuenta de AWS válido. Sustituya el nombre de la base de datos y el nombre de la tabla por el nombre real de la tabla de Iceberg y el nombre de la base de datos. Sustituya el roleArn por el nombre de recurso de AWS (ARN) del rol de IAM y el nombre del rol de IAM que tiene los permisos necesarios para ejecutar la compactación.

aws glue create-table-optimizer \ --catalog-id 123456789012 \ --database-name iceberg_db \ --table-name iceberg_table \ --table-optimizer-configuration '{"roleArn":"arn:aws:iam::123456789012:role/optimizer_role", "enabled":'true', "vpcConfiguration":{"glueConnectionName":"glue_connection_name"}}' \ --type compaction
AWS API

Llame a la operación CreateTableOptimizer para habilitar la compactación de una tabla.

Después de activar la compactación, la pestaña de Optimización de la tabla muestra los siguientes detalles de compactación (después de aproximadamente 15 a 20 minutos):

Hora de inicio

Hora a la que se inició el proceso de compactación en el Catálogo de datos. El valor es una marca en la hora UTC.

Hora de finalización

Hora a la que terminó el proceso de compactación en el Catálogo de datos. El valor es una marca en la hora UTC.

Status

Estado del ciclo de compactación. Los valores indican éxito o fracaso.

Archivos compactados

Número de archivos compactados.

Bytes compactados

Número de bytes compactados.