Cómo optimizar el rendimiento de las consultas con las estadísticas de columnas
Puede calcular estadísticas a nivel de columna para tablas AWS Glue Data Catalog en formatos de datos como Parquet, ORC, JSON, ION, CSV y XML sin necesidad de configurar canalizaciones de datos adicionales. Las estadísticas de columnas le ayudan a entender los perfiles de datos al obtener información sobre los valores de una columna.
El catálogo de datos le permite generar estadísticas para los valores de las columnas, como el valor mínimo, el valor máximo, los valores nulos totales, los valores distintos totales, la longitud media de los valores y el total de apariciones de valores verdaderos. Los servicios analíticos de AWS como Amazon Redshift y Amazon Athena pueden utilizar estas estadísticas de columnas para generar planes de ejecución de consultas y elegir el plan más adecuado que mejore el rendimiento de las consultas.
Existen tres casos en los que generar estadísticas de columnas:
- Automático
AWS Glue admite la generación automática de estadísticas de columnas a nivel de catálogo, para que pueda generar automáticamente estadísticas de las nuevas tablas en AWS Glue Data Catalog.
- Programados
AWS Glue permite programar la generación de estadísticas de columnas para que se puedan ejecutar automáticamente según una programación periódica.
Con el cálculo de estadísticas programado, la tarea de estadísticas de columnas actualiza las estadísticas generales a nivel de tabla (como las mínimas, máximas y medias) con las nuevas estadísticas, lo que proporciona a los motores de consultas estadísticas precisas y actualizadas para optimizar la ejecución de las consultas.
- Bajo demanda
Utilice esta opción para generar estadísticas de columnas bajo demanda siempre que sea necesario. Esto resulta útil para realizar un análisis ad hoc o cuando es necesario calcular las estadísticas de forma inmediata.
Puede configurar esto para ejecutar la tarea de generación de estadísticas de columnas mediante la consola AWS Glue, AWS CLI y operaciones de API AWS Glue. Al iniciar el proceso, AWS Glue inicia un trabajo de Spark en segundo plano y actualiza los metadatos de la tabla AWS Glue en el catálogo de datos. Puede ver las estadísticas de las columnas mediante la consola AWS Glue o AWS CLI, o llamando a la operación de la API GetColumnStatisticsForTable.
nota
Si utiliza los permisos de Lake Formation para controlar el acceso a la tabla, el rol que asume la tarea de estadísticas de columnas requiere acceso total a la tabla para generar estadísticas.
En el video a continuación se muestra cómo mejorar el rendimiento de las solicitudes con estadísticas de columnas.