本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
Rule
表示应在此数据集范围内验证的单个数据质量要求。
内容
注意
下表中,首先描述的是必需参数。
- CheckExpression
-
包括列引用、条件名称并后跟变量引用的表达式,可能与其他条件一同分组并组合使用。例如,
(:col1 starts_with :prefix1 or :col1 starts_with :prefix2) and (:col1 ends_with :suffix1 or :col1 ends_with :suffix2)
。列和值引用是应以“:”符号开头的替代变量。根据上下文,替代变量的值可以是实际值或列名。这些值在中定义 SubstitutionMap。如果 a 以列引用 CheckExpression 开头,则 ColumnSelectors 在规则中应为空。如果 ColumnSelectors已定义,则条件的左侧不应有列引用,例如is_between :val1 and :val2
。有关更多信息,请参阅可用支票
类型:字符串
长度限制:最小长度为 4。长度上限为 1024。
模式:
^[<>0-9A-Za-z_.,:)(!= ]+$
必需:是
- Name
-
规则的名称。
类型:字符串
长度限制:长度下限为 1。长度上限为 128。
必需:是
- ColumnSelectors
-
列选择器列表。选择器可用于使用数据集中的名称或正则表达式选择列。规则将应用于选定的列。
类型:ColumnSelector 对象数组
数组成员:最少 1 个物品。
必需:否
- Disabled
-
指定是否禁用规则的值。禁用规则后,配置文件作业将不会在作业运行期间对其进行验证。默认值为 false。
类型:布尔值
必需:否
- SubstitutionMap
-
替换变量名称与此检验表达式中所用值的映射。变量名称应以“:”(冒号)开头。变量值可以是实际值或列名称。为了区分两者,列名称应该用反引号括起来,例如,
":col1": "`Column A`".
类型:字符串到字符串映射
密钥长度限制:最小长度为 2。长度上限为 128。
键模式:
^:[A-Za-z0-9_]+$
值长度约束:最大长度为 1024。
必需:否
- Threshold
-
与非聚合校验表达式一起使用的阈值。非聚合校验表达式将应用于特定列中的每一行,阈值将用于确定验证是否成功。
类型:Threshold 对象
必需:否
另请参阅
有关在特定语言的 AWS SDK 中使用此 API 的更多信息,请参阅以下内容: