UniqueValueRatio - AWS Glue

UniqueValueRatio

Comprueba la relación de valores únicos de una columna con respecto a una expresión determinada. Una relación de valores únicos es la fracción de valores únicos dividida entre el número de todos los valores distintos de una columna. Los valores únicos aparecen exactamente una vez, mientras que los valores distintos aparecen al menos una vez.

Por ejemplo, el conjunto [a, a, b] contiene un valor único (b) y dos valores distintos (a y b). Por lo tanto, la relación de valores únicos del conjunto es ½ = 0,5.

Sintaxis

UniqueValueRatio <COL_NAME> <EXPRESSION>
  • COL_NAME: el nombre de la columna con la que quiere evaluar la regla de la calidad de los datos.

    Tipos de columnas compatibles: cualquier tipo de columna

  • EXPRESSION: una expresión que se ejecuta en función de la respuesta del tipo de regla para producir un valor booleano. Para obtener más información, consulte Expressions.

Ejemplo: relación de valores únicos

En este ejemplo, se comprueba la relación de valores única de una columna frente a un rango de valores.

UniqueValueRatio "test_score" between 0 and 0.5 UniqueValueRatio "Customer_ID" between 0 and 0.9 where "Customer_ID < 10"

Muestra de reglas dinámicas

  • UniqueValueRatio "colA" > avg(last(10))

  • UniqueValueRatio "colA" <= index(last(10),2) + std(last(5))