Generación de estadísticas de columnas según un cronograma - AWS Glue

Generación de estadísticas de columnas según un cronograma

Siga estos pasos para configurar un programa para generar estadísticas de columnas AWS Glue Data Catalog mediante la AWS Glue consola AWS CLI, la o la CreateColumnStatisticsTaskSettingsoperación.

Console
Generación de estadísticas de columnas mediante la consola
  1. Inicie sesión en la AWS Glue consola en https://console.aws.amazon.com/glue/.

  2. Seleccione las tablas del Data Catalog.

  3. Seleccione una tabla de la lista.

  4. Seleccione la pestaña de estadísticas de columnas en la sección inferior de la página de tablas.

  5. También puedes seleccionar Generar según lo programado en Estadísticas de columnas desde Acciones.

  6. En la página Generar estadísticas según lo programado, configure un programa periódico para ejecutar la tarea de estadísticas de la columna seleccionando la frecuencia y la hora de inicio. Puede elegir que la frecuencia sea horaria, diaria, semanal o definir una expresión cron para especificar la programación.

    Una expresión cron es una cadena que representa un patrón de programación y consta de 6 campos separados por espacios: * * * * * * <minute><hour><day of month><month><day of week><year>Por ejemplo, para ejecutar una tarea todos los días a medianoche, la expresión cron sería: 0 0 * *? *

    Para obtener más información, consulte Expresiones Cron.

    La captura de pantalla muestra las opciones disponibles para generar estadísticas de columnas.
  7. A continuación, elija la opción de columna para generar estadísticas.

    • Todas las columnas: elija esta opción para generar estadísticas para todas las columnas de la tabla.

    • Columnas seleccionadas: elija esta opción para generar estadísticas para columnas específicas. Puede seleccionar las columnas en la lista desplegable.

  8. Elija un IAM rol o cree uno existente que tenga permisos para generar estadísticas. AWS Glue asume esta función para generar estadísticas de columnas.

    Un enfoque más rápido es dejar que la AWS Glue consola cree un rol para usted. El rol que crea es específico para generar estadísticas de columnas e incluye la política AWSGlueServiceRole AWS administrada más la política interna requerida para la fuente de datos especificada.

    Si especifica un rol existente para generar estadísticas de columnas, asegúrese de que incluya la AWSGlueServiceRole política o su equivalente (o una versión restringida de esta política), además de las políticas integradas requeridas.

  9. (Opcional) A continuación, elija una configuración de seguridad para habilitar el cifrado en reposo de los registros.

  10. (Opcional) Puede elegir un tamaño de muestra indicando solo un porcentaje específico de filas de la tabla para generar estadísticas. El valor predeterminado es Todas las filas. Utilice las flechas hacia arriba y hacia abajo para aumentar o disminuir el valor porcentual.

    Se recomienda incluir todas las filas de la tabla para calcular estadísticas precisas. Utilice filas de muestra para generar estadísticas de columnas solo cuando los valores aproximados sean aceptables.

  11. Elija Generar estadísticas para ejecutar la tarea de generación de estadísticas de columnas.

AWS CLI

Puede usar el siguiente AWS CLI ejemplo para crear un programa de generación de estadísticas de columnas. El nombre de la base de datos, el nombre de la tabla y el rol son parámetros obligatorios, y los parámetros opcionales son el horario, el identificador del catálogo column-name-list, el tamaño de la muestra y la configuración de seguridad.

aws glue create-column-statistics-task-settings \ --database-name 'database_name' \ --table-name table_name \ --role 'arn:aws:iam::123456789012:role/stats-role' \ --schedule 'cron(0 0-5 14 * * ?)' \ --column-name-list 'col-1' \ --catalog-id '123456789012' \ --sample-size '10.0 ' \ --security-configuration 'test-security'

También puede generar estadísticas de columnas llamando a la operación. StartColumnStatisticsTaskRun