AWS Glue Data Quality - AWS Glue

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

AWS Glue Data Quality

AWS Glue Data Quality 帮助您衡量和监控数据质量,从而做出明智的业务决策。AWS Glue Data Quality 建立在开源 DeeQu 框架之上,提供托管的无服务器体验。AWS GlueData Quality 使用数据质量定义语言(DQDL),这是一种特定领域的语言,用于定义数据质量规则。要了解有关 DQDL 和支持的规则类型的更多信息,请参阅 数据质量定义语言(DQDL)引用

有关产品详细信息和定价,请参阅 AWS Glue Data Quality 服务页面。

优点和主要功能

AWS Glue 数据质量自动监测功能的优点和主要功能包括:

  • 无服务器 – 无需安装、修补或维护。

  • 快速入门 — AWS Glue Data Quality 可快速分析您的数据并为您创建数据质量规则。只需点击两下即可开始:“创建数据质量规则 → 推荐规则”。

  • 检测数据质量问题 – 使用机器学习(ML)检测异常和难以检测的数据质量问题。

  • 即兴制定规则 — 从超过 25 个开箱即用的 DQ 规则开始,您可以创建适合自己特定需求的规则。

  • 评估质量并做出自信的业务决策 — 评估规则后,您将获得一个数据质量分数,该分数可以概述数据的运行状况。使用数据质量分数做出自信的业务决策。

  • 聚焦不良数据 — AWS Glue Data Quality 可帮助您识别导致质量分数下降的确切记录。轻松识别它们,对其进行隔离和修复。

  • 按实际使用量付费 – 无需年度许可证即可使用 AWS Glue 数据质量自动监测功能。

  • 无锁定 — AWS Glue Data Quality 建立在开源 DeeQu 之上,允许您保留以开放语言编写的规则。

  • 数据质量检查 – 您可以对 Data Catalog 和 AWS Glue ETL 管道进行数据质量检查,从而管理静态和传输中的数据质量。

  • 基于 ML 的数据质量检测 – 使用机器学习(ML)检测异常和难以检测的数据质量问题。

  • 表达规则的开放性语言 – 确保简单一致地编写数据质量规则。业务用户可以用他们能理解的简单语言轻松地表达数据质量规则。对于工程师来说,这种语言可以让他们更灵活地生成代码、实现一致的版本控制并进行自动部署。

工作方式

AWS Glue Data Quality 有两个入口点:AWS Glue Data Catalog 和 AWS Glue ETL 作业。本节概述了每个入口点支持的用例和 AWS Glue 功能。

AWS Glue Data Catalog 的数据质量

AWS Glue Data Quality 评估存储在 AWS Glue Data Catalog 中的对象。它为非编码人员提供了一种设置数据质量规则的简便方法。这些角色包括数据管理员和业务分析师。

您可以为以下用例选择此选项:

  • 您想对已在 AWS Glue Data Catalog 中编目的数据集执行数据质量任务。

  • 您从事数据治理工作,需要持续识别或评估数据湖中的数据质量问题。

您可以使用以下界面管理 Data Catalog 的数据质量:

  • AWS Glue 管理控制台

  • AWS Glue API

要开始为 AWS Glue Data Catalog 使用 AWS Glue Data Quality,请参阅 AWS Glue Data Quality for the Data Catalog 入门

AWS Glue ETL 作业的数据质量

适用于 AWS Glue ETL 的 AWS Glue Data Quality 允许您主动执行数据质量任务。主动任务可帮助您在将数据集加载到数据湖之前识别并筛选出不良数据。

您可以针对以下用例为 ETL 作业选择数据质量:

  • 您想将数据质量任务整合到您的 ETL 作业中

  • 您想编写在 ETL 脚本中定义数据质量任务的代码

  • 您想管理可视化数据管道中流出的数据的质量

您可以使用以下界面管理适用于 ETL 作业的数据质量:

  • AWS Glue Studio、AWS Glue Studio 笔记本和 AWS Glue 交互式会话

  • 用于 ETL 脚本的 AWS Glue 库

  • AWS Glue API

要开始了解适用于 ETL 作业的数据质量,请参阅《AWS Glue Studio 用户指南》中的 Tutorial: Getting started with Data Quality

将 Data Catalog 的数据质量与适用于 ETL 作业的数据质量进行比较

下表概述了 AWS Glue Data Quality 支持的每个入口点的功能。

功能 Data Catalog 的数据质量 ETL 作业的数据质量
数据来源 Amazon S3、Amazon Redshift、与 Data Catalog 兼容的 JDBC 源以及交易数据湖格式,例如 Apache Iceberg、Apache Hudi 和 Delta Lake。请注意,如果表是由 AWS Lake Formation 托管的,则不支持 Iceberg、Delta 和 HUDI 表。不支持 AWS Glue Data Catalog 中编入目录的 Amazon Athena 视图。 AWS Glue 支持的所有数据来源,包括自定义连接器和第三方连接器。
数据质量规则建议 支持 不支持
编写并运行 DQDL 规则 支持 支持
自动扩缩 不支持 支持
AWS Glue Flex 支持 不支持 支持
调度 在评估 Data Quality 规则时和通过 Step Functions 时支持。 使用 Step Functions 和工作流程时支持。
识别未通过数据质量检查的记录 不支持 支持
与 Amazon EventBridge 集成 支持 支持
将 AWS CloudWatch 集成 支持 支持
将数据质量结果写入 Amazon S3 支持 支持
增量数据质量 通过下推谓词支持 通过 AWS Glue 书签支持
AWS CloudFormation 支持 支持 支持
基于 ML 的异常检测 不支持 支持
动态规则 不支持 支持

注意事项

在使用 AWS Glue 数据质量自动监测功能之前,请考虑以下各项:

术语

下表定义了与 AWS Glue Data Quality 相关的术语。

数据质量定义语言(DQDL)

一种特定领域的语言,可用于编写 AWS Glue Data Quality 规则。

要了解有关 DQDL 的更多信息,请参阅数据质量定义语言(DQDL)引用指南。

数据质量

描述数据集在多大程度上发挥其特定用途。AWS GlueData Quality 根据数据集评估规则以衡量数据质量。每条规则都检查特定特征,例如数据新鲜度或完整性。要量化数据质量,可以使用数据质量分数

数据质量分数

当您使用 AWS Glue 数据质量评估规则集时,通过(结果为真)的数据质量规则的百分比。

规则

DQDL 表达式,用于检查您的数据是否存在特定特征并返回布尔值。有关更多信息,请参阅 规则结构

分析器

用于收集数据统计信息的 DQDL 表达式。分析器收集的数据统计信息,ML 算法可以使用这些统计信息来检测一段时间内的异常情况和难以检测的数据质量问题。

规则集

一种包含一组数据质量规则的 AWS Glue 资源。规则集必须与 AWS Glue Data Catalog 中的一个表格关联。保存规则集时,AWS Glue 会为规则集分配一个 Amazon 资源名称(ARN)。

数据质量分数

当您使用 AWS Glue 数据质量评估规则集时,通过(结果为真)的数据质量规则的百分比。

观测值

AWS Glue 通过分析一段时间内从规则和分析器收集的数据统计信息得出的未经证实的见解。

限制

AWS Glue 数据质量自动监测功能服务限制:

  • 一个规则集中可以有 2000 个规则。如果您的规则集较大,我们建议将其拆分成多个规则集。

  • 规则集的大小为 65 KB。如果您的规则集较大,我们建议将其拆分成多个规则集。

  • 创建规则或分析器时,AWS Glue 数据质量自动监测功能会收集统计信息。存储这些统计信息不会产生任何费用。但是,每个账户的统计信息上限为 10 万条,并且这些统计信息最多保留两年。

AWS Glue Data Quality 发布说明

本主题介绍了 AWS Glue Data Quality 中引入的功能。

正式上市:新功能

随着 AWS Glue Data Quality 的正式上市,将提供以下新功能:

  • 现在 AWS Glue Studio 支持识别哪些记录未通过数据质量检查的功能

  • 新的数据质量规则类型,例如验证两个数据集之间数据的引用完整性、比较两个数据集之间的数据以及数据类型检查

  • 改善了 AWS Glue Data Catalog 中的用户体验

  • 支持 Apache Iceberg、Apache Hudi 和 Delta Lake

  • 支持 Amazon Redshift

  • 使用 Amazon EventBridge 简化通知

  • AWS CloudFormation 支持创建规则集

  • 性能改进:ETL 和 AWS Glue Studio 中的缓存选项以及评估数据质量时更快的性能

2023 年 11 月 27 日(预览版)

2024 年 3 月 12 日

2024 年 6 月 26 日

  • DQDL 改进

    • DQDL 现在支持 where 子句,这样您就可以在应用 DQ 规则之前筛选数据

2024 年 8 月 7 日

  • 异常检测和动态规则现已正式发布