本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
中的核心概念和术语 AWS Glue DataBrew
下面,您可以在中找到核心概念和术语的概述 AWS Glue DataBrew。在阅读本节后,请参阅入门 AWS Glue DataBrew,该节将指导您完成创建项目、连接数据集和运行作业的过程。
项目
中的交互式数据准备工作区 DataBrew 称为项目。使用数据项目,您可以管理一系列相关项目:数据、转换和计划流程。在创建项目时,您可以选择或创建要处理的数据集。接下来,你创建一个食谱,这是一组你 DataBrew 要执行的说明或步骤。这些操作会将您的原始数据转换为可供数据管道使用的表单。
数据集
数据集只是指一组数据,即分为列或字段的行或记录。创建 DataBrew 项目时,您可以连接或上传要转换或准备的数据。 DataBrew 可以处理来自任何来源、从格式化文件导入的数据,并且可以直接连接到越来越多的数据存储列表。
对于 DataBrew,数据集是指与您的数据的只读连接。 DataBrew 收集一组描述性元数据以引用数据。任何实际数据都不能被修改或存储 DataBrew。为简单起见,我们使用数据集来指代实际的数据集和 DataBrew 使用的元数据。
配方
在中 DataBrew,配方是您 DataBrew 要处理的数据的一组说明或步骤。一个配方可以包含多个步骤,每个步骤可以包含许多操作。您可以使用工具栏上的转换工具来设置要对数据进行的所有更改。稍后,当你准备好查看食谱的成品时,你可以将这项工作分配给 DataBrew 并安排时间。 DataBrew 存储有关数据转换的说明,但它不存储您的任何实际数据。您可以在其他项目中下载和重复使用配方。您还可以发布多个食谱版本。
作业
DataBrew 通过运行你在制作食谱时设置的指令,负责转换数据。运行这些指令的过程称为作业。作业可以根据预设的时间表将您的数据配方付诸实践。但是你并不局限于日程安排。您还可以按需运行作业。如果您想分析一些数据,则不需要配方。在这种情况下,您只需设置配置文件作业即可创建数据配置文件。
数据沿袭
DataBrew 在可视化界面中跟踪您的数据以确定其来源,称为数据谱系。此视图向您展示了数据如何通过不同实体与其最初来源的不同实体流动。你可以看到它的起源、它受到影响的其他实体、它随着时间的推移发生了什么以及它被存储在哪里。
数据分析文件
当您对数据进行分析时, DataBrew 会创建一个名为数据配置文件的报告。此摘要向您介绍数据的现有形状,包括内容的上下文、数据的结构及其关系。您可以通过运行数据配置文件作业为任何数据集创建数据配置文件。