Visualización de estadísticas de columnas - AWS Glue

Visualización de estadísticas de columnas

Tras generar las estadísticas correctamente, Data Catalog almacena esta información para que los optimizadores basados en los costes de Amazon Redshift Amazon Athena y Amazon Redshift puedan tomar las decisiones óptimas al ejecutar consultas. Las estadísticas varían en función del tipo de columna.

AWS Management Console
Visualización de las estadísticas de columna de una tabla
  • Tras ejecutar la tarea de estadísticas de columnas, la pestaña Estadísticas de columnas de la página de Detalles de la tabla muestra las estadísticas de la tabla.

    La captura de pantalla muestra las columnas generadas a partir de la ejecución más reciente.

    Están disponibles las siguientes estadísticas:

    • Nombre de columna: nombre de columna utilizado para generar estadísticas

    • Última actualización: fecha y hora en que se generaron las estadísticas

    • Longitud media: longitud media de los valores de la columna

    • Valores distintos: número total de valores distintos de la columna. Estimamos el número de valores distintos de una columna con un error relativo del 5 %.

    • Valor máximo: el valor más alto de la columna.

    • Valor mínimo: el valor más bajo de la columna.

    • Longitud máxima: longitud del valor más alto de la columna.

    • Valores nulos: el número total de valores nulos en la columna.

    • Valores verdaderos: el número de valores verdaderos en la columna.

    • Valores falsos: el número de valores falsos en la columna.

    • numFiles: el número total de archivos de la tabla. Este valor está disponible en la pestaña Propiedades avanzadas.

AWS CLI

En el siguiente ejemplo se muestra cómo recuperar estadísticas de columnas mediante AWS CLI.

aws glue get-column-statistics-for-table \ --database-name database_name \ --table-name table_name \ --column-names <column_name>

También puede ver las estadísticas de la columna mediante la GetColumnStatisticsForTableAPIoperación.