使用 AWS Glue Studio 评估数据质量 - AWS Glue

使用 AWS Glue Studio 评估数据质量

AWS Glue 数据质量可根据您定义的规则评估和监控您的数据质量。这样可以轻松识别需要操作的数据。在 AWS Glue Studio 中,您可以向可视化作业中添加数据质量节点,以便为数据目录中的表创建数据质量规则。然后,您可以监控和评估数据集随着时间的推移而发生的变化。有关如何在 AWS Glue 中使用 AWS Glue Studio Data Quality 的概述,请观看以下视频。

以下是有关如何操作 AWS Glue 数据质量的总体步骤:

  1. Create data quality rules(创建数据质量规则)— 通过选择您配置的内置规则集,使用 DQDL 生成器构建一组数据质量规则。

  2. Configure a data quality job(配置数据质量作业)— 根据数据质量结果和输出选项定义操作。

  3. 保存并运行数据质量作业 — 创建和运行作业。保存作业将保存您为该作业创建的规则集。

  4. Monitor and review the data quality results(监控和查看数据质量结果)— 在作业运行完成后查看数据质量结果。(可选)将作业安排在未来的某个日期运行。

优势

数据分析师、数据工程师和数据科学家可以使用 AWS Glue Studio 中的评估数据质量节点来分析、配置、监控和提高可视化作业编辑器中的数据质量。使用数据质量节点的好处包括:

  • 您可以检测数据质量问题 — 您可以通过创建一些规则来检查数据集特征来查看是否存在问题。

  • 轻松上手 — 您可以从预先构建的规则和操作开始。

  • 紧密集成 — 您可以使用 AWS Glue Studio 中的数据质量节点,因为 AWS Glue Data Quality 是基于 AWS Glue Data Quality 运行的。