数据质量 API
数据质量 API 描述了数据质量数据类型,并包括用于创建、删除或更新数据质量规则集、运行和评估的 API。
数据类型
数据源结构
要获得数据质量结果的数据源(AWS Glue 表)。
字段
-
GlueTable
– 必填:一个 GlueTable 对象。AWS Glue 表。
DataQualityRulesetListDetails 结构
描述 GetDataQualityRuleset
返回的数据质量规则集。
字段
-
Name
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。数据质量规则集的名称。
-
Description
– 描述字符串,长度不超过 2048 个字节,与 URI address multi-line string pattern 匹配。数据质量规则集的描述。
-
CreatedOn
– 时间戳。创建数据质量规则集的日期和时间。
-
LastModifiedOn
– 时间戳。上次修改数据质量规则集的日期和时间。
-
TargetTable
– 一个 DataQualityTargetTable 对象。表示 AWS Glue 表的对象。
-
RecommendationRunId
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。当根据建议运行创建规则集时,会生成此运行 ID 以将两者联系在一起。
-
RuleCount
– 数字(整数)。规则集中的规则数量。
DataQualityTargetTable 结构
表示 AWS Glue 表的对象。
字段
-
TableName
– 必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。AWS Glue 表的名称。
-
DatabaseName
– 必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。AWS Glue 表所在数据库的名称。
-
CatalogId
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。AWS Glue 表所在的目录 ID。
DataQualityRulesetEvaluationRunDescription 结构
描述数据质量规则集评估运行的结果。
字段
-
RunId
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。与此运行关联的唯一运行标识符。
-
Status
– UTF-8 字符串(有效值:RUNNING
|FINISHED
|FAILED
|PENDING_EXECUTION
|TIMED_OUT
|CANCELING
|CANCELED
|RECEIVED_BY_TASKRUNNER
)。此运行的运行状态。
-
StartedOn
– 时间戳。启动运行的日期和时间。
-
DataSource
– 一个 DataSource 对象。与运行相关的数据源(AWS Glue 表)。
DataQualityRulesetEvaluationRunFilter 结构
筛选条件。
字段
-
DataSource
– 必填:一个 DataSource 对象。根据与运行相关的数据源(AWS Glue 表)进行筛选。
-
StartedBefore
– 时间戳。按在此时间之前开始的运行筛选结果。
-
StartedAfter
– 时间戳。按在此时间之后开始的运行筛选结果。
DataQualityEvaluationRunAdditionalRunOptions 结构
您可以为评估运行指定的其他运行选项。
字段
-
CloudWatchMetricsEnabled
– 布尔值。是否启用 CloudWatch 指标。
-
ResultsS3Prefix
– UTF-8 字符串。用于存储结果的 Amazon S3 的前缀。
-
CompositeRuleEvaluationMethod
– UTF-8 字符串(有效值:COLUMN
|ROW
)。将规则集中复合规则的评估方法设置为 ROW/COLUMN
DataQualityRuleRecommendationRunDescription 结构
描述数据质量规则建议运行的结果。
字段
-
RunId
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。与此运行关联的唯一运行标识符。
-
Status
– UTF-8 字符串(有效值:RUNNING
|FINISHED
|FAILED
|PENDING_EXECUTION
|TIMED_OUT
|CANCELING
|CANCELED
|RECEIVED_BY_TASKRUNNER
)。此运行的运行状态。
-
StartedOn
– 时间戳。此运行开始的日期和时间。
-
DataSource
– 一个 DataSource 对象。与建议运行相关的数据源(AWS Glue 表)。
DataQualityRuleRecommendationRunFilter 结构
用于列出数据质量建议运行的筛选器。
字段
-
DataSource
– 必填:一个 DataSource 对象。根据指定的数据源(AWS Glue 表)进行筛选。
-
StartedBefore
– 时间戳。根据时间进行筛选,以查看在提供的时间之前开始的结果。
-
StartedAfter
– 时间戳。根据时间进行筛选,以查看在提供的时间之后开始的结果。
DataQualityResult 结构
描述数据质量结果。
字段
-
ResultId
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。数据质量结果的唯一结果 ID。
-
ProfileId
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。数据质量结果的配置文件 ID。
-
Score
– 数字(双数),不超过 1.0。汇总的数据质量分数。表示规则与传递到规则总数的比率。
-
DataSource
– 一个 DataSource 对象。与数据质量结果相关的表(如果有)。
-
RulesetName
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。与数据质量结果相关的规则集的名称。
-
EvaluationContext
– UTF-8 字符串。在 AWS Glue Studio 中的作业环境中,画布中的每个节点通常都被分配某种名称,数据质量节点也会有名称。如果有多个节点,则
evaluationContext
可以区分这些节点。 -
StartedOn
– 时间戳。此数据质量运行开始的日期和时间。
-
CompletedOn
– 时间戳。此数据质量运行完成的日期和时间。
-
JobName
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。与数据质量结果相关的作业名称(如果有)。
-
JobRunId
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。与数据质量结果相关的作业运行 ID(如果有)。
-
RulesetEvaluationRunId
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。此数据质量结果的规则集评估的唯一运行 ID。
-
RuleResults
– 一组 DataQualityRuleResult 对象,不超过 2000 个结构。代表每条规则结果的
DataQualityRuleResult
对象列表。 -
AnalyzerResults
– 一组 DataQualityAnalyzerResult 对象,不超过 2000 个结构。代表每个分析器结果的
DataQualityAnalyzerResult
对象列表。 -
Observations
– DataQualityObservation 对象的数组,不超过 50 个结构。代表评估规则和分析器后生成的观测值的
DataQualityObservation
对象列表。
DataQualityAnalyzerResult 结构
描述数据质量分析器评估的结果。
字段
-
Name
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。数据质量分析器的名称。
-
Description
– UTF-8 字符串,长度不超过 2048 个字节,与 URI address multi-line string pattern 匹配。数据质量分析器的描述。
-
EvaluationMessage
– UTF-8 字符串,长度不超过 2048 个字节,与 URI address multi-line string pattern 匹配。评估消息。
-
EvaluatedMetrics
– 键值对的映射数组。每个键是一个 UTF-8 字符串,不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。
每个值都是数字(双精度数)。
与分析器评估相关的指标地图。
DataQualityObservation 结构
描述评估规则和分析器后生成的观测。
字段
-
Description
– UTF-8 字符串,长度不超过 2048 个字节,与 URI address multi-line string pattern 匹配。数据质量观测的描述。
-
MetricBasedObservation
– 一个 MetricBasedObservation 对象。表示基于所评估数据质量指标的观测的
MetricBasedObservation
类型对象。
MetricBasedObservation 结构
描述基于所评估数据质量指标生成的基于指标的观测。
字段
-
MetricName
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。用于生成观测的数据质量指标的名称。
-
StatisticId
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。统计信息 ID。
-
MetricValues
– 一个 DataQualityMetricValues 对象。表示数据质量指标值分析的
DataQualityMetricValues
类型对象。 -
NewRules
– UTF-8 字符串数组。根据数据质量指标值,作为观测结果的一部分生成的新数据质量规则列表。
DataQualityMetricValues 结构
根据对历史数据的分析,描述数据质量指标值。
字段
-
ActualValue
– 数字(double)。数据质量指标的实际值。
-
ExpectedValue
– 数字(double)。根据对历史数据的分析,数据质量指标的预期值。
-
LowerLimit
– 数字(double)。根据对历史数据的分析,数据质量指标的下限值。
-
UpperLimit
– 数字(double)。根据对历史数据的分析,数据质量指标的上限值。
DataQualityRuleResult 结构
描述数据质量规则评估运行的结果。
字段
-
Name
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。数据质量规则的名称。
-
Description
– UTF-8 字符串,长度不超过 2048 个字节,与 URI address multi-line string pattern 匹配。数据质量规则的描述。
-
EvaluationMessage
– UTF-8 字符串,长度不超过 2048 个字节,与 URI address multi-line string pattern 匹配。评估消息。
-
Result
– UTF-8 字符串(有效值:PASS
|FAIL
|ERROR
)。规则的通过或失败状态。
-
EvaluatedMetrics
– 键值对的映射数组。每个键是一个 UTF-8 字符串,不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。
每个值都是数字(双精度数)。
与规则评估相关的指标地图。
-
EvaluatedRule
– UTF-8 字符串,长度不超过 2048 个字节,与 URI address multi-line string pattern 匹配。已评估的规则。
DataQualityResultDescription 结构
描述数据质量结果。
字段
-
ResultId
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。此数据质量结果的唯一结果 ID。
-
DataSource
– 一个 DataSource 对象。与数据质量结果相关的表。
-
JobName
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。与数据质量结果相关的作业名称。
-
JobRunId
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。与数据质量结果相关的作业运行 ID。
-
StartedOn
– 时间戳。此数据质量结果的运行开始的时间。
DataQualityResultFilterCriteria 结构
用于返回数据质量结果的标准。
字段
-
DataSource
– 一个 DataSource 对象。按指定的数据源筛选结果。例如,检索 AWS Glue 表的所有结果。
-
JobName
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。按指定的任务名称筛选结果。
-
JobRunId
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。按指定的任务运行 ID 筛选结果。
-
StartedAfter
– 时间戳。按在此时间之后开始的运行筛选结果。
-
StartedBefore
– 时间戳。按在此时间之前开始的运行筛选结果。
DataQualityRulesetFilterCriteria 结构
用于筛选数据质量规则集的条件。
字段
-
Name
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。规则集筛选条件的名称。
-
Description
– 描述字符串,长度不超过 2048 个字节,与 URI address multi-line string pattern 匹配。规则集筛选条件的描述。
-
CreatedBefore
– 时间戳。筛选在此日期之前创建的规则集。
-
CreatedAfter
– 时间戳。筛选在此日期之后创建的规则集。
-
LastModifiedBefore
– 时间戳。筛选此日期之前最后一次修改的规则集。
-
LastModifiedAfter
– 时间戳。筛选此日期之后最后一次修改的规则集。
-
TargetTable
– 一个 DataQualityTargetTable 对象。目标表的名称和数据库名称。
StatisticAnnotation 结构
统计注释。
字段
-
ProfileId
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。配置文件 ID。
-
StatisticId
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。统计信息 ID。
-
StatisticRecordedOn
– 时间戳。带注释的统计数据被记录的时间戳。
-
InclusionAnnotation
– 一个 TimestampedInclusionAnnotation 对象。应用于统计数据的包含注释。
TimestampedInclusionAnnotation 结构
带有时间戳的包含注释。
字段
-
Value
– UTF-8 字符串(有效值:INCLUDE
|EXCLUDE
)。包含注释值。
-
LastModifiedOn
– 时间戳。上次修改包含注释的时间戳。
AnnotionError 结构
失败的注释。
字段
-
ProfileId
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。失败注释的配置文件 ID。
-
StatisticId
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。失败注释的统计数据 ID。
-
FailureReason
– 描述字符串,长度不超过 2048 个字节,与 URI address multi-line string pattern 匹配。注释处理失败的原因。
DatapointInclusionAnnotation 结构
包含注释。
字段
-
ProfileId
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。统计数据所属的数据质量配置文件的 ID。
-
StatisticId
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。统计信息 ID。
-
InclusionAnnotation
– UTF-8 字符串(有效值:INCLUDE
|EXCLUDE
)。要应用于统计数据的包含注释值。
StatisticSummaryList 列表
StatisticSummary
列表。
StatisticSummary 对象数组。
StatisticSummary
列表。
StatisticSummary 结构
统计数据的汇总信息。
字段
-
StatisticId
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。统计信息 ID。
-
ProfileId
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。配置文件 ID。
-
RunIdentifier
– 一个 RunIdentifier 对象。运行标识符
-
StatisticName
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Custom string pattern #16 匹配。统计数据的名称。
-
DoubleValue
– 数字(double)。统计数据的值。
-
EvaluationLevel
– UTF-8 字符串(有效值:Dataset="DATASET"
|Column="COLUMN"
|Multicolumn="MULTICOLUMN"
)。统计数据的评估级别。可能的值:
Dataset
、Column
、Multicolumn
。 -
ColumnsReferenced
– UTF-8 字符串数组。统计数据引用的列的列表。
-
ReferencedDatasets
– UTF-8 字符串数组。统计数据引用的数据集的列表。
-
StatisticProperties
– 键值对的映射数组。每个键是一个 UTF-8 字符串,不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。
每个值都是一个描述字符串,长度不超过 2048 个字节,与 URI address multi-line string pattern 匹配。
一个
StatisticPropertiesMap
,其中包含NameString
和DescriptionString
-
RecordedOn
– 时间戳。记录统计数据的时间戳。
-
InclusionAnnotation
– 一个 TimestampedInclusionAnnotation 对象。统计数据的包含注释。
RunIdentifier 结构
运行标识符。
字段
-
RunId
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。运行 ID。
-
JobRunId
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。作业运行 ID。
StatisticModelResult 结构
统计模型结果。
字段
-
LowerBound
– 数字(double)。下限。
-
UpperBound
– 数字(double)。上限。
-
PredictedValue
– 数字(double)。预测值。
-
ActualValue
– 数字(double)。实际值。
-
Date
– 时间戳。日期。
-
InclusionAnnotation
– UTF-8 字符串(有效值:INCLUDE
|EXCLUDE
)。包含注释。
操作
StartDataQualityRulesetEvaluationRun 操作(Python:start_data_quality_ruleset_evaluation_run)
CancelDataQualityRulesetEvaluationRun 操作(Python:cancel_data_quality_ruleset_evaluation_run)
GetDataQualityRulesetEvaluationRun 操作(Python:get_data_quality_ruleset_evaluation_run)
ListDataQualityRulesetEvaluationRuns 操作(Python: list_data_quality_ruleset_evaluation_runs)
StartDataQualityRuleRecommendationRun 操作(Python:start_data_quality_rule_recommendation_run)
CancelDataQualityRuleRecommendationRun 操作(Python:cancel_data_quality_rule_recommendation_run)
GetDataQualityRuleRecommendationRun 操作(Python:get_data_quality_rule_recommendation_run)
ListDataQualityRuleRecommendationRuns 操作(Python:list_data_quality_rule_recommendation_runs)
BatchGetDataQualityResult 操作(Python:batch_get_data_quality_result)
CreateDataQualityRuleset 操作(Python:create_data_quality_ruleset)
DeleteDataQualityRuleset 操作(Python:delete_data_quality_ruleset)
ListDataQualityRulesets 操作(Python:list_data_quality_rulesets)
UpdateDataQualityRuleset 操作(Python:update_data_quality_ruleset)
ListDataQualityStatistics 操作(Python:list_data_quality_statistics)
BatchPutDataQualityStatisticAnnotation 操作(Python:batch_put_data_quality_statistic_annotation)
GetDataQualityModelResult 操作(Python:get_data_quality_model_result)
ListDataQualityStatisticAnnotations 操作(Python:list_data_quality_statistic_annotations)
PutDataQualityProfileAnnotation 操作(Python:put_data_quality_profile_annotation)
StartDataQualityRulesetEvaluationRun 操作(Python:start_data_quality_ruleset_evaluation_run)
有了规则集定义(推荐定义或您自己的定义)后,就可以调用此操作来根据数据源(AWS Glue 表)评估规则集。评估会计算出您可以使用 GetDataQualityResult
API 检索的结果。
请求
-
DataSource
– 必填:一个 DataSource 对象。与此运行相关的数据源(AWS Glue 表)。
-
Role
– 必填:UTF-8 字符串。为加密运行结果而提供的 IAM 角色。
-
NumberOfWorkers
– 数字(整数)。运行所用的
G.1X
工作线程数量。默认值为 5。 -
Timeout
- 数字(整数),至少为 1。运行超时(分钟)。这是任务运行在终止并进入
TIMEOUT
状态前可以使用资源的最长时间。默认值为 2880 分钟(48 小时)。 -
ClientToken
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。用于幂等性,建议设置为随机 ID(例如,UUID),以避免创建或启动同一资源的多个实例。
-
AdditionalRunOptions
– 一个 DataQualityEvaluationRunAdditionalRunOptions 对象。您可以为评估运行指定的其他运行选项。
-
RulesetNames
— 必填:UTF-8 字符串数组,不少于 1 个或不超过 10 个字符串。规则集名称的列表。
-
AdditionalDataSources
– 键值对的映射数组。每个键是一个 UTF-8 字符串,不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。
每个值都是一个 DataSource 对象。
您可以为评估运行指定的其他数据来源的引用字符串地图。
响应
-
RunId
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。与此运行关联的唯一运行标识符。
错误
InvalidInputException
EntityNotFoundException
OperationTimeoutException
InternalServiceException
ConflictException
CancelDataQualityRulesetEvaluationRun 操作(Python:cancel_data_quality_ruleset_evaluation_run)
取消正在根据数据源评估规则集的运行。
请求
-
RunId
– 必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。与此运行关联的唯一运行标识符。
响应
无响应参数。
错误
EntityNotFoundException
InvalidInputException
OperationTimeoutException
InternalServiceException
GetDataQualityRulesetEvaluationRun 操作(Python:get_data_quality_ruleset_evaluation_run)
检索正在根据数据源评估规则集的特定运行。
请求
-
RunId
– 必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。与此运行关联的唯一运行标识符。
响应
-
RunId
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。与此运行关联的唯一运行标识符。
-
DataSource
– 一个 DataSource 对象。与此评估运行相关的数据源(AWS Glue 表)。
-
Role
– UTF-8 字符串。为加密运行结果而提供的 IAM 角色。
-
NumberOfWorkers
– 数字(整数)。运行所用的
G.1X
工作线程数量。默认值为 5。 -
Timeout
- 数字(整数),至少为 1。运行超时(分钟)。这是任务运行在终止并进入
TIMEOUT
状态前可以使用资源的最长时间。默认值为 2880 分钟(48 小时)。 -
AdditionalRunOptions
– 一个 DataQualityEvaluationRunAdditionalRunOptions 对象。您可以为评估运行指定的其他运行选项。
-
Status
– UTF-8 字符串(有效值:RUNNING
|FINISHED
|FAILED
|PENDING_EXECUTION
|TIMED_OUT
|CANCELING
|CANCELED
|RECEIVED_BY_TASKRUNNER
)。此运行的运行状态。
-
ErrorString
– UTF-8 字符串。与运行关联的错误字符串。
-
StartedOn
– 时间戳。此运行开始的日期和时间。
-
LastModifiedOn
– 时间戳。时间戳。此数据质量规则建议运行最后一个修改时间点。
-
CompletedOn
– 时间戳。此运行的完成日期和时间。
-
ExecutionTime
– 数字(整数)。运行使用资源的时间长度(以秒为单位)。
-
RulesetNames
– UTF-8 字符串数组,不少于 1 个字符串,不超过 10 个字符串。运行的规则集名称列表。目前,此参数仅采用一个规则集名称。
-
ResultIds
— UTF-8 字符串数组,不少于 1 个字符串,不超过 10 个字符串。运行数据质量结果的结果 ID 列表。
-
AdditionalDataSources
– 键值对的映射数组。每个键是一个 UTF-8 字符串,不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。
每个值都是一个 DataSource 对象。
您可以为评估运行指定的其他数据来源的引用字符串地图。
错误
EntityNotFoundException
InvalidInputException
OperationTimeoutException
InternalServiceException
ListDataQualityRulesetEvaluationRuns 操作(Python: list_data_quality_ruleset_evaluation_runs)
列出所有符合筛选条件的运行,其中根据数据源对规则集进行评估。
请求
-
Filter
– 一个 DataQualityRulesetEvaluationRunFilter 对象。筛选条件。
-
NextToken
– UTF-8 字符串。用于偏移结果的分页令牌。
-
MaxResults
– 数字(整数),不小于 1 或大于 1000。要返回的最大结果数量。
响应
-
Runs
– DataQualityRulesetEvaluationRunDescription 对象的数组。代表数据质量规则集规则的
DataQualityRulesetEvaluationRunDescription
对象列表。 -
NextToken
– UTF-8 字符串。分页令牌(如果有更多结果可用)。
错误
InvalidInputException
OperationTimeoutException
InternalServiceException
StartDataQualityRuleRecommendationRun 操作(Python:start_data_quality_rule_recommendation_run)
当您不知道要写什么规则时,不妨开始用于生成规则的建议运行。AWS GlueData Quality 分析数据,并就潜在的规则集提出建议。然后,您可以对规则集进行分类,并根据自己的喜好修改生成的规则集。
建议运行在 90 天后被自动删除。
请求
数据质量规则建议请求的请求。
-
DataSource
– 必填:一个 DataSource 对象。与此运行相关的数据源(AWS Glue 表)。
-
Role
– 必填:UTF-8 字符串。为加密运行结果而提供的 IAM 角色。
-
NumberOfWorkers
– 数字(整数)。运行所用的
G.1X
工作线程数量。默认值为 5。 -
Timeout
- 数字(整数),至少为 1。运行超时(分钟)。这是任务运行在终止并进入
TIMEOUT
状态前可以使用资源的最长时间。默认值为 2880 分钟(48 小时)。 -
CreatedRulesetName
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。规则集的名称。
-
DataQualitySecurityConfiguration
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。使用数据质量加密选项创建的安全配置名称。
-
ClientToken
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。用于幂等性,建议设置为随机 ID(例如,UUID),以避免创建或启动同一资源的多个实例。
响应
-
RunId
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。与此运行关联的唯一运行标识符。
错误
InvalidInputException
OperationTimeoutException
InternalServiceException
ConflictException
CancelDataQualityRuleRecommendationRun 操作(Python:cancel_data_quality_rule_recommendation_run)
取消用于生成规则的指定建议运行。
请求
-
RunId
– 必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。与此运行关联的唯一运行标识符。
响应
无响应参数。
错误
EntityNotFoundException
InvalidInputException
OperationTimeoutException
InternalServiceException
GetDataQualityRuleRecommendationRun 操作(Python:get_data_quality_rule_recommendation_run)
获取用于生成规则的指定建议运行。
请求
-
RunId
– 必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。与此运行关联的唯一运行标识符。
响应
运行的数据质量规则建议的响应。
-
RunId
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。与此运行关联的唯一运行标识符。
-
DataSource
– 一个 DataSource 对象。与此运行相关的数据源(AWS Glue 表)。
-
Role
– UTF-8 字符串。为加密运行结果而提供的 IAM 角色。
-
NumberOfWorkers
– 数字(整数)。运行所用的
G.1X
工作线程数量。默认值为 5。 -
Timeout
- 数字(整数),至少为 1。运行超时(分钟)。这是任务运行在终止并进入
TIMEOUT
状态前可以使用资源的最长时间。默认值为 2880 分钟(48 小时)。 -
Status
– UTF-8 字符串(有效值:RUNNING
|FINISHED
|FAILED
|PENDING_EXECUTION
|TIMED_OUT
|CANCELING
|CANCELED
|RECEIVED_BY_TASKRUNNER
)。此运行的运行状态。
-
ErrorString
– UTF-8 字符串。与运行关联的错误字符串。
-
StartedOn
– 时间戳。此运行开始的日期和时间。
-
LastModifiedOn
– 时间戳。时间戳。此数据质量规则建议运行最后一个修改时间点。
-
CompletedOn
– 时间戳。此运行的完成日期和时间。
-
ExecutionTime
– 数字(整数)。运行使用资源的时间长度(以秒为单位)。
-
RecommendedRuleset
– UTF-8 字符串,长度不少于 1 个字节,不超过 65536 个字节。启动规则建议运行完成后,它会创建建议的规则集(一组规则)。该成员的规则采用数据质量定义语言(DQDL)格式。
-
CreatedRulesetName
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。运行创建的规则集的名称。
-
DataQualitySecurityConfiguration
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。使用数据质量加密选项创建的安全配置名称。
错误
EntityNotFoundException
InvalidInputException
OperationTimeoutException
InternalServiceException
ListDataQualityRuleRecommendationRuns 操作(Python:list_data_quality_rule_recommendation_runs)
列出符合筛选条件的建议运行。
请求
-
Filter
– 一个 DataQualityRuleRecommendationRunFilter 对象。筛选条件。
-
NextToken
– UTF-8 字符串。用于偏移结果的分页令牌。
-
MaxResults
– 数字(整数),不小于 1 或大于 1000。要返回的最大结果数量。
响应
-
Runs
– DataQualityRuleRecommendationRunDescription 对象的数组。DataQualityRuleRecommendationRunDescription
对象的列表。 -
NextToken
– UTF-8 字符串。分页令牌(如果有更多结果可用)。
错误
InvalidInputException
OperationTimeoutException
InternalServiceException
GetDataQualityResult 操作(Python:get_data_quality_result)
检索数据质量规则评估的结果。
请求
-
ResultId
– 必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。数据质量结果的唯一结果 ID。
响应
数据质量结果的响应。
-
ResultId
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。数据质量结果的唯一结果 ID。
-
ProfileId
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。数据质量结果的配置文件 ID。
-
Score
– 数字(双数),不超过 1.0。汇总的数据质量分数。表示规则与传递到规则总数的比率。
-
DataSource
– 一个 DataSource 对象。与数据质量结果相关的表(如果有)。
-
RulesetName
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。与数据质量结果相关的规则集的名称。
-
EvaluationContext
– UTF-8 字符串。在 AWS Glue Studio 中的作业环境中,画布中的每个节点通常都被分配某种名称,数据质量节点也会有名称。如果有多个节点,则
evaluationContext
可以区分这些节点。 -
StartedOn
– 时间戳。开始运行此数据质量结果的日期和时间。
-
CompletedOn
– 时间戳。完成运行此数据质量结果的日期和时间。
-
JobName
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。与数据质量结果相关的作业名称(如果有)。
-
JobRunId
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。与数据质量结果相关的作业运行 ID(如果有)。
-
RulesetEvaluationRunId
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。与规则集评估相关的唯一运行 ID。
-
RuleResults
– 一组 DataQualityRuleResult 对象,不超过 2000 个结构。代表每条规则结果的
DataQualityRuleResult
对象列表。 -
AnalyzerResults
– 一组 DataQualityAnalyzerResult 对象,不超过 2000 个结构。代表每个分析器结果的
DataQualityAnalyzerResult
对象列表。 -
Observations
– DataQualityObservation 对象的数组,不超过 50 个结构。代表评估规则和分析器后生成的观测值的
DataQualityObservation
对象列表。
错误
InvalidInputException
OperationTimeoutException
InternalServiceException
EntityNotFoundException
BatchGetDataQualityResult 操作(Python:batch_get_data_quality_result)
检索指定结果 ID 的数据质量结果列表。
请求
-
ResultIds
– 必填:UTF-8 字符串数组,不少于 1 个字符串,不超过 100 个字符串。数据质量结果的唯一结果 ID 列表。
响应
-
Results
– 必填:DataQualityResult 对象的数组。代表数据质量规则集的
DataQualityResult
对象列表。 -
ResultsNotFound
– UTF-8 字符串数组,不少于 1 个字符串,不超过 100 个字符串。未找到结果的结果 ID 列表。
错误
InvalidInputException
OperationTimeoutException
InternalServiceException
ListDataQualityResults 操作(Python:list_data_quality_results)
返回您账户的所有数据质量执行结果。
请求
-
Filter
– 一个 DataQualityResultFilterCriteria 对象。筛选条件。
-
NextToken
– UTF-8 字符串。用于偏移结果的分页令牌。
-
MaxResults
– 数字(整数),不小于 1 或大于 1000。要返回的最大结果数量。
响应
-
Results
– 必填:DataQualityResultDescription 对象的数组。DataQualityResultDescription
对象的列表。 -
NextToken
– UTF-8 字符串。分页令牌(如果有更多结果可用)。
错误
InvalidInputException
OperationTimeoutException
InternalServiceException
CreateDataQualityRuleset 操作(Python:create_data_quality_ruleset)
创建数据质量规则集,将 DQDL 规则应用于指定 AWS Glue 表。
您可以使用数据质量定义语言 (DQDL) 创建规则集。有关更多信息,请参见 AWS Glue 开发人员指南。
请求
创建数据质量规则集的请求。
-
Name
– 必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。数据质量规则集的唯一名称。
-
Description
– 描述字符串,长度不超过 2048 个字节,与 URI address multi-line string pattern 匹配。数据质量规则集的描述。
-
Ruleset
– 必填: UTF-8 字符串,长度不少于 1 个字节,不超过 65536 个字节。数据质量定义语言(DQDL)规则集。有关更多信息,请参见 AWS Glue 开发人员指南。
-
Tags
– 键值对的映射数组,不超过 50 对。每个键都是一个 UTF-8 字符串,长度不少于 1 个字节或超过 128 个字节。
每个值是一个 UTF-8 字符串,不超过 256 个字节。
应用于数据质量规则集的标签列表。
-
TargetTable
– 一个 DataQualityTargetTable 对象。与数据质量规则集关联的目标表。
-
RecommendationRunId
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。建议运行的唯一运行 ID。
-
DataQualitySecurityConfiguration
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。使用数据质量加密选项创建的安全配置名称。
-
ClientToken
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。用于幂等性,建议设置为随机 ID(例如,UUID),以避免创建或启动同一资源的多个实例。
响应
-
Name
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。数据质量规则集的唯一名称。
错误
InvalidInputException
AlreadyExistsException
OperationTimeoutException
InternalServiceException
ResourceNumberLimitExceededException
DeleteDataQualityRuleset 操作(Python:delete_data_quality_ruleset)
删除数据质量规则集。
请求
-
Name
– 必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。数据质量规则集的名称。
响应
无响应参数。
错误
EntityNotFoundException
InvalidInputException
OperationTimeoutException
InternalServiceException
GetDataQualityRuleset 操作(Python:get_data_quality_ruleset)
按标识符或名称返回现有规则集。
请求
-
Name
– 必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。规则集的名称。
响应
返回数据质量规则集响应。
-
Name
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。规则集的名称。
-
Description
– 描述字符串,长度不超过 2048 个字节,与 URI address multi-line string pattern 匹配。规则集的描述。
-
Ruleset
– UTF-8 字符串,长度不少于 1 个字节,不超过 65536 个字节。数据质量定义语言(DQDL)规则集。有关更多信息,请参见 AWS Glue 开发人员指南。
-
TargetTable
– 一个 DataQualityTargetTable 对象。目标表的名称和数据库名称。
-
CreatedOn
– 时间戳。时间戳。此数据质量规则集的创建时间和日期。
-
LastModifiedOn
– 时间戳。时间戳。此数据质量规则最后一个修改时间点。
-
RecommendationRunId
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。当根据建议运行创建规则集时,会生成此运行 ID 以将两者联系在一起。
-
DataQualitySecurityConfiguration
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。使用数据质量加密选项创建的安全配置名称。
错误
EntityNotFoundException
InvalidInputException
OperationTimeoutException
InternalServiceException
ListDataQualityRulesets 操作(Python:list_data_quality_rulesets)
返回指定 AWS Glue 表列表的分页规则集列表。
请求
-
NextToken
– UTF-8 字符串。用于偏移结果的分页令牌。
-
MaxResults
– 数字(整数),不小于 1 或大于 1000。要返回的最大结果数量。
-
Filter
– 一个 DataQualityRulesetFilterCriteria 对象。筛选条件。
-
Tags
– 键值对的映射数组,不超过 50 对。每个键都是一个 UTF-8 字符串,长度不少于 1 个字节或超过 128 个字节。
每个值是一个 UTF-8 字符串,不超过 256 个字节。
键值对标签的列表。
响应
-
Rulesets
– DataQualityRulesetListDetails 对象的数组。指定 AWS Glue 表列表的分页规则集列表。
-
NextToken
– UTF-8 字符串。分页令牌(如果有更多结果可用)。
错误
EntityNotFoundException
InvalidInputException
OperationTimeoutException
InternalServiceException
UpdateDataQualityRuleset 操作(Python:update_data_quality_ruleset)
更新指定的数据质量规则集。
请求
-
Name
– 必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。数据质量规则集的名称。
-
Description
– 描述字符串,长度不超过 2048 个字节,与 URI address multi-line string pattern 匹配。规则集的描述。
-
Ruleset
– UTF-8 字符串,长度不少于 1 个字节,不超过 65536 个字节。数据质量定义语言(DQDL)规则集。有关更多信息,请参见 AWS Glue 开发人员指南。
响应
-
Name
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。数据质量规则集的名称。
-
Description
– 描述字符串,长度不超过 2048 个字节,与 URI address multi-line string pattern 匹配。规则集的描述。
-
Ruleset
– UTF-8 字符串,长度不少于 1 个字节,不超过 65536 个字节。数据质量定义语言(DQDL)规则集。有关更多信息,请参见 AWS Glue 开发人员指南。
错误
EntityNotFoundException
AlreadyExistsException
IdempotentParameterMismatchException
InvalidInputException
OperationTimeoutException
InternalServiceException
ResourceNumberLimitExceededException
ListDataQualityStatistics 操作(Python:list_data_quality_statistics)
检索数据质量统计数据列表。
请求
-
StatisticId
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。统计信息 ID。
-
ProfileId
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。配置文件 ID。
-
TimestampFilter
– 一个 TimestampFilter 对象。时间戳筛选条件。
-
MaxResults
– 数字(整数),不小于 1 或大于 1000。此请求中要返回的最大结果数。
-
NextToken
– UTF-8 字符串。用于请求下一页结果的分页标记。
响应
-
Statistics
– StatisticSummary 对象的数组。一个
StatisticSummaryList
。 -
NextToken
– UTF-8 字符串。用于请求下一页结果的分页标记。
错误
EntityNotFoundException
InvalidInputException
InternalServiceException
TimestampFilter 结构
时间戳筛选条件。
字段
-
RecordedBefore
– 时间戳。应在结果中包含统计信息的截止时间戳。
-
RecordedAfter
– 时间戳。应在结果中包含统计信息的起始时间戳。
CreateDataQualityRulesetRequest 结构
创建数据质量规则集的请求。
字段
-
Name
– 必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。数据质量规则集的唯一名称。
-
Description
– 描述字符串,长度不超过 2048 个字节,与 URI address multi-line string pattern 匹配。数据质量规则集的描述。
-
Ruleset
– 必填: UTF-8 字符串,长度不少于 1 个字节,不超过 65536 个字节。数据质量定义语言(DQDL)规则集。有关更多信息,请参见 AWS Glue 开发人员指南。
-
Tags
– 键值对的映射数组,不超过 50 对。每个键都是一个 UTF-8 字符串,长度不少于 1 个字节或超过 128 个字节。
每个值是一个 UTF-8 字符串,不超过 256 个字节。
应用于数据质量规则集的标签列表。
-
TargetTable
– 一个 DataQualityTargetTable 对象。与数据质量规则集关联的目标表。
-
RecommendationRunId
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。建议运行的唯一运行 ID。
-
DataQualitySecurityConfiguration
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。使用数据质量加密选项创建的安全配置名称。
-
ClientToken
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。用于幂等性,建议设置为随机 ID(例如,UUID),以避免创建或启动同一资源的多个实例。
GetDataQualityRulesetResponse 结构
返回数据质量规则集响应。
字段
-
Name
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。规则集的名称。
-
Description
– 描述字符串,长度不超过 2048 个字节,与 URI address multi-line string pattern 匹配。规则集的描述。
-
Ruleset
– UTF-8 字符串,长度不少于 1 个字节,不超过 65536 个字节。数据质量定义语言(DQDL)规则集。有关更多信息,请参见 AWS Glue 开发人员指南。
-
TargetTable
– 一个 DataQualityTargetTable 对象。目标表的名称和数据库名称。
-
CreatedOn
– 时间戳。时间戳。此数据质量规则集的创建时间和日期。
-
LastModifiedOn
– 时间戳。时间戳。此数据质量规则最后一个修改时间点。
-
RecommendationRunId
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。当根据建议运行创建规则集时,会生成此运行 ID 以将两者联系在一起。
-
DataQualitySecurityConfiguration
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。使用数据质量加密选项创建的安全配置名称。
GetDataQualityResultResponse 结构
数据质量结果的响应。
字段
-
ResultId
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。数据质量结果的唯一结果 ID。
-
ProfileId
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。数据质量结果的配置文件 ID。
-
Score
– 数字(双数),不超过 1.0。汇总的数据质量分数。表示规则与传递到规则总数的比率。
-
DataSource
– 一个 DataSource 对象。与数据质量结果相关的表(如果有)。
-
RulesetName
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。与数据质量结果相关的规则集的名称。
-
EvaluationContext
– UTF-8 字符串。在 AWS Glue Studio 中的作业环境中,画布中的每个节点通常都被分配某种名称,数据质量节点也会有名称。如果有多个节点,则
evaluationContext
可以区分这些节点。 -
StartedOn
– 时间戳。开始运行此数据质量结果的日期和时间。
-
CompletedOn
– 时间戳。完成运行此数据质量结果的日期和时间。
-
JobName
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。与数据质量结果相关的作业名称(如果有)。
-
JobRunId
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。与数据质量结果相关的作业运行 ID(如果有)。
-
RulesetEvaluationRunId
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。与规则集评估相关的唯一运行 ID。
-
RuleResults
– 一组 DataQualityRuleResult 对象,不超过 2000 个结构。代表每条规则结果的
DataQualityRuleResult
对象列表。 -
AnalyzerResults
– 一组 DataQualityAnalyzerResult 对象,不超过 2000 个结构。代表每个分析器结果的
DataQualityAnalyzerResult
对象列表。 -
Observations
– DataQualityObservation 对象的数组,不超过 50 个结构。代表评估规则和分析器后生成的观测值的
DataQualityObservation
对象列表。
StartDataQualityRuleRecommendationRunRequest 结构
数据质量规则建议请求的请求。
字段
-
DataSource
– 必填:一个 DataSource 对象。与此运行相关的数据源(AWS Glue 表)。
-
Role
– 必填:UTF-8 字符串。为加密运行结果而提供的 IAM 角色。
-
NumberOfWorkers
– 数字(整数)。运行所用的
G.1X
工作线程数量。默认值为 5。 -
Timeout
- 数字(整数),至少为 1。运行超时(分钟)。这是任务运行在终止并进入
TIMEOUT
状态前可以使用资源的最长时间。默认值为 2880 分钟(48 小时)。 -
CreatedRulesetName
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。规则集的名称。
-
DataQualitySecurityConfiguration
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。使用数据质量加密选项创建的安全配置名称。
-
ClientToken
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。用于幂等性,建议设置为随机 ID(例如,UUID),以避免创建或启动同一资源的多个实例。
GetDataQualityRuleRecommendationRunResponse 结构
运行的数据质量规则建议的响应。
字段
-
RunId
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。与此运行关联的唯一运行标识符。
-
DataSource
– 一个 DataSource 对象。与此运行相关的数据源(AWS Glue 表)。
-
Role
– UTF-8 字符串。为加密运行结果而提供的 IAM 角色。
-
NumberOfWorkers
– 数字(整数)。运行所用的
G.1X
工作线程数量。默认值为 5。 -
Timeout
- 数字(整数),至少为 1。运行超时(分钟)。这是任务运行在终止并进入
TIMEOUT
状态前可以使用资源的最长时间。默认值为 2880 分钟(48 小时)。 -
Status
– UTF-8 字符串(有效值:RUNNING
|FINISHED
|FAILED
|PENDING_EXECUTION
|TIMED_OUT
|CANCELING
|CANCELED
|RECEIVED_BY_TASKRUNNER
)。此运行的运行状态。
-
ErrorString
– UTF-8 字符串。与运行关联的错误字符串。
-
StartedOn
– 时间戳。此运行开始的日期和时间。
-
LastModifiedOn
– 时间戳。时间戳。此数据质量规则建议运行最后一个修改时间点。
-
CompletedOn
– 时间戳。此运行的完成日期和时间。
-
ExecutionTime
– 数字(整数)。运行使用资源的时间长度(以秒为单位)。
-
RecommendedRuleset
– UTF-8 字符串,长度不少于 1 个字节,不超过 65536 个字节。启动规则建议运行完成后,它会创建建议的规则集(一组规则)。该成员的规则采用数据质量定义语言(DQDL)格式。
-
CreatedRulesetName
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。运行创建的规则集的名称。
-
DataQualitySecurityConfiguration
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。使用数据质量加密选项创建的安全配置名称。
BatchPutDataQualityStatisticAnnotation 操作(Python:batch_put_data_quality_statistic_annotation)
为特定数据质量统计数据随时间变化的数据点添加注释。
请求
-
InclusionAnnotations
– 必填:DatapointInclusionAnnotation 对象的数组。DatapointInclusionAnnotation
的列表。 -
ClientToken
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。客户端令牌。
响应
-
FailedInclusionAnnotations
– AnnotationError 对象的数组。AnnotationError
的列表。
错误
EntityNotFoundException
InvalidInputException
InternalServiceException
ResourceNumberLimitExceededException
GetDataQualityModel 操作(Python:get_data_quality_model)
检索模型的训练状态以及更多信息(CompletedOn、StartedOn、FailureReason)。
请求
-
StatisticId
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。统计信息 ID。
-
ProfileId
– 必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。配置文件 ID。
响应
-
Status
– UTF-8 字符串(有效值:RUNNING
|SUCCEEDED
|FAILED
)。数据质量模型的训练状态。
-
StartedOn
– 时间戳。数据质量模型训练开始的时间戳。
-
CompletedOn
– 时间戳。数据质量模型训练完成的时间戳。
-
FailureReason
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。训练失败的原因。
错误
EntityNotFoundException
InvalidInputException
OperationTimeoutException
InternalServiceException
GetDataQualityModelResult 操作(Python:get_data_quality_model_result)
针对给定个人资料 ID 检索统计数据的预测。
请求
-
StatisticId
– 必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。统计信息 ID。
-
ProfileId
– 必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。配置文件 ID。
响应
-
CompletedOn
– 时间戳。数据质量模型训练完成的时间戳。
-
Model
– StatisticModelResult 对象的数组。StatisticModelResult
列表
错误
EntityNotFoundException
InvalidInputException
OperationTimeoutException
InternalServiceException
ListDataQualityStatisticAnnotations 操作(Python:list_data_quality_statistic_annotations)
检索数据质量统计数据的注释。
请求
-
StatisticId
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。统计信息 ID。
-
ProfileId
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。配置文件 ID。
-
TimestampFilter
– 一个 TimestampFilter 对象。时间戳筛选条件。
-
MaxResults
– 数字(整数),不小于 1 或大于 1000。此请求中要返回的最大结果数。
-
NextToken
– UTF-8 字符串。用于检索下一组结果的分页标记。
响应
-
Annotations
– StatisticAnnotation 对象的数组。已应用于统计数据的
StatisticAnnotation
的列表 -
NextToken
– UTF-8 字符串。用于检索下一组结果的分页标记。
错误
InvalidInputException
InternalServiceException
PutDataQualityProfileAnnotation 操作(Python:put_data_quality_profile_annotation)
为某一个人资料的所有数据点添加注释。
请求
-
ProfileId
– 必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。要注释的数据质量监控配置文件的 ID。
-
InclusionAnnotation
– 必填:UTF-8 字符串(有效值:INCLUDE
|EXCLUDE
)。要应用于配置文件的包含注释值。
响应
无响应参数。
错误
EntityNotFoundException
InvalidInputException
InternalServiceException