熵 - AWS Glue

检查列的值是否与给定表达式匹配。熵测量消息中包含的信息级别。给定列中值的概率分布,熵描述了识别一个值需要多少位。

语法

Entropy <COL_NAME> <EXPRESSION>
  • COL_NAME — 要根据其评估数据质量规则的列的名称。

    支持的列类型:任何列类型

  • EXPRESSION — 针对规则类型响应运行以生成布尔值的表达式。有关更多信息,请参阅 Expressions

示例:列熵

以下示例规则检查名 Feedback 为的列的熵值是否大于一。

Entropy "Star_Rating" > 1 Entropy "First_Name" > 1 where "Customer_ID < 10"

示例动态规则

  • Entropy "colA" < max(last(10))

  • Entropy "colA" between min(last(10)) and max(last(10))