Rule - AWS Glue DataBrew

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Rule

表示应在此数据集范围内验证的单个数据质量要求。

内容

注意

下表中,首先描述的是必需参数。

CheckExpression

包括列引用、条件名称并后跟变量引用的表达式,可能与其他条件一同分组并组合使用。例如,(:col1 starts_with :prefix1 or :col1 starts_with :prefix2) and (:col1 ends_with :suffix1 or :col1 ends_with :suffix2)。列和值引用是应以“:”符号开头的替代变量。根据上下文,替代变量的值可以是实际值或列名。这些值在中定义 SubstitutionMap。如果 a 以列引用 CheckExpression 开头,则 ColumnSelectors 在规则中应为空。如果 ColumnSelectors已定义,则条件的左侧不应有列引用,例如is_between :val1 and :val2

有关更多信息,请参阅可用支票

类型:字符串

长度限制:最小长度为 4。长度上限为 1024。

模式:^[<>0-9A-Za-z_.,:)(!= ]+$

必需:是

Name

规则的名称。

类型:字符串

长度限制:长度下限为 1。长度上限为 128。

必需:是

ColumnSelectors

列选择器列表。选择器可用于使用数据集中的名称或正则表达式选择列。规则将应用于选定的列。

类型:ColumnSelector 对象数组

数组成员:最少 1 个物品。

必需:否

Disabled

指定是否禁用规则的值。禁用规则后,配置文件作业将不会在作业运行期间对其进行验证。默认值为 false。

类型:布尔值

必需:否

SubstitutionMap

替换变量名称与此检验表达式中所用值的映射。变量名称应以“:”(冒号)开头。变量值可以是实际值或列名称。为了区分两者,列名称应该用反引号括起来,例如,":col1": "`Column A`".

类型:字符串到字符串映射

密钥长度限制:最小长度为 2。长度上限为 128。

键模式:^:[A-Za-z0-9_]+$

值长度约束:最大长度为 1024。

必需:否

Threshold

与非聚合校验表达式一起使用的阈值。非聚合校验表达式将应用于特定列中的每一行,阈值将用于确定验证是否成功。

类型:Threshold 对象

必需:否

另请参阅

有关在特定语言的 AWS SDK 中使用此 API 的更多信息,请参阅以下内容: