UniqueValueRatio - AWS Glue

UniqueValueRatio

根据给定表达式检查列中唯一值比率。唯一值比率是唯一值除以列中所有不同值的数量得出的分数。唯一值仅出现一次,而不同值至少出现一次。

例如,集合 [a, a, b] 包含一个唯一值 (b) 和两个不同值(ab)。因此,集合的唯一值比率为 ½ = 0.5。

语法

UniqueValueRatio <COL_NAME> <EXPRESSION>
  • COL_NAME — 要根据其评估数据质量规则的列的名称。

    支持的列类型:任何列类型

  • EXPRESSION — 针对规则类型响应运行以生成布尔值的表达式。有关更多信息,请参阅 Expressions

示例:唯一值比率

此示例检查列与一系列值的唯一值比率。

UniqueValueRatio "test_score" between 0 and 0.5 UniqueValueRatio "Customer_ID" between 0 and 0.9 where "Customer_ID < 10"

示例动态规则

  • UniqueValueRatio "colA" > avg(last(10))

  • UniqueValueRatio "colA" <= index(last(10),2) + std(last(5))