AWS Glue DataBrew - AWS 规范性指导

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

AWS Glue DataBrew

AWS Glue DataBrew 是一项完全托管的可视化数据准备服务,用于清理、标准化和转换数据。它与 AWS Glue ETL 的不同之处在于,您无需编写代码即可使用它。 DataBrew 提供 250 多种内置转换,以及用于创建和管理数据转换作业的可视化 point-and-click界面。

DataBrew 可在单独的控制台视图中使用 AWS Glue。它与多种 AWS 服务原生集成,并支持许多不同的文件格式。有关更多信息,请参阅产品和服务集成

DataBrew 基于以下六个核心概念:

  • 项目-中的整个数据准备工作空间 DataBrew

  • 数据集-结构化或半结构化数据的集合

  • 配方-一组数据转换步骤;每个步骤可以包含许多操作

  • Job — 一组用于运行配方或数据分析作业的指令 

  • 数据沿袭 — 在可视界面中跟踪数据以识别其来源

  • 数据概况-数据形状的摘要视图

AWS Glue DataBrew 与集成 AWS Glue Studio,因此您可以在 AWS Glue ETL 作业和工作流程中编排 DataBrew 配方。 DataBrew 配方还可以利用作业书签、自动重试和自动缩放等 AWS Glue 功能。要开始使用 DataBrew,请使用AWS Glue DataBrew 示例项目教程。