数据质量检查 - AWS 规范性指导

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

数据质量检查

数据质量是数据清理过程中不可或缺但经常被忽视的一部分。下图显示了数据质量检查如何融入数据工程自动化和访问控制生命周期。

数据质量图

下表根据用例概述了不同的数据质量解决方案。

使用案例

解决方案

示例

用于添加列级或表级质量条件的无代码解决方案

AWSGlue DataBrew

检查所有列值是否介于 1 和 12 之间,或者表或列是否为空

在 AWS Glue 作业或无代码解决方案(预览版)中添加自定义代码,以添加列级或表级质量条件

AWSGlue 数据质量

检查该列first_name是否不为空,或者该列是否仅phone_number包含数字、“+” 运算符和/或统计函数,例如平均值或求和

自定义支票

ETL可选,比如 AWSLambda、Glue AWS或亚马逊 EMR

检查 A 列的值是否总是大于 B 列和列 C 的相应值,或者列的值continent是否始终在地理位置上正确并从该city列派生

包含指标报告、约束验证和约束建议的复杂解决方案

Deequ

检查列CompletenessConstraint指标的完整性是否等review_id1