Media - AWS Glue

Media

Comprueba si la media (promedio) de todos los valores de una columna coincide con una expresión dada.

Sintaxis

Mean <COL_NAME> <EXPRESSION>
  • COL_NAME: el nombre de la columna con la que quiere evaluar la regla de la calidad de los datos.

    Tipos de columnas compatibles: byte, decimal, doble, flotante, entero, largo, corto

  • EXPRESSION: una expresión que se ejecuta en función de la respuesta del tipo de regla para producir un valor booleano. Para obtener más información, consulte Expressions.

Ejemplo: valor promedio

La siguiente regla de ejemplo comprueba si el promedio de todos los valores de una columna supera un umbral.

Mean "Star_Rating" > 3 Mean "Salary" < 6200 where "Customer_ID < 10"

Muestra de reglas dinámicas

  • Mean "colA" > avg(last(10)) + std(last(2))

  • Mean "colA" between min(last(5)) - 1 and max(last(5)) + 1

Comportamiento nulo

La regla Mean ignorará las filas con valores NULL al momento de calcular la media. Por ejemplo:

+---+-----------+ |id |units | +---+-----------+ |100|0 | |101|null | |102|20 | |103|null | |104|40 | +---+-----------+

La media de la columna units será (0 + 20 + 40) / 3 = 20. Las filas 101 y 103 no se tienen en cuenta para este cálculo.