Amazon DataZone 术语和概念 - 亚马逊 DataZone

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon DataZone 术语和概念

Amazon DataZone 是一项数据管理服务,可让您更快、更轻松地对存储在各处的数据进行分类、发现、共享和管理 AWS、本地和第三方来源。借助 Amazon DataZone,监督组织数据资产的管理员和数据管理员可以使用精细的控制来管理和控制对数据的访问。这些控件旨在确保使用适当级别的权限和上下文进行访问。Amazon DataZone 使工程师、数据科学家、产品经理、分析师和业务用户可以更轻松地访问整个组织的数据,以便他们可以发现、使用和协作以获得数据驱动的见解。

在开始使用 Amazon 时 DataZone,了解其关键概念、术语和组成部分非常重要。

亚马逊 DataZone 组件

Amazon DataZone 包括以下四个主要组成部分:

  • 业务数据目录-您可以使用此组件根据业务背景对整个组织的数据进行分类,从而使组织中的每个人都能快速查找和理解数据。

  • 发布和订阅工作流程-您可以使用这些自动化工作流程以自助方式保护生产者和消费者之间的数据,并确保组织中的每个人都能出于正确目的访问正确的数据。

  • 项目和环境

    • 在 Amazon DataZone 项目中,基于业务用例的人员分组、资产(数据)和工具,用于简化对项目的访问 AWS 分析。项目提供了项目成员可以协作、交换数据和共享资产的区域。默认情况下,项目配置为只有明确添加到项目中的人员才能访问项目中的数据和分析工具。项目管理根据项目政策生产的资产的所有权,供数据使用者访问。

    • 在 Amazon DataZone 项目中,环境是零个或多个已配置资源的集合(例如,Amazon S3 存储桶、 AWS Glue 数据库,或 Amazon Athena 工作组),一组给定的委托人(例如,具有贡献者权限IAM的用户)可以在该数据库上进行操作。

  • 数据门户(外部 AWS 管理控制台)-这是一个基于浏览器的 Web 应用程序,不同的用户可以在其中以自助方式对数据进行编目、发现、管理、共享和分析。数据门户使用您的身份提供商提供的IAM凭据或现有凭证对用户进行身份验证 AWS IAM Identity Center.

什么是 Amazon DataZone 域名?

您可以使用 Amazon DataZone 域来组织您的资产、用户及其项目。通过关联其他 AWS 使用您的 Amazon DataZone 域名的账户,您可以汇集您的数据源。然后,您可以使用元数据表单和词汇表将这些数据源中的资源发布到域的目录中,从而提高元数据的完整性和质量。您也可以搜索和浏览这些资产,以查看域中发布了哪些数据。此外,您可以加入项目与其他用户协作,订阅资产,并使用项目环境访问分析工具,包括亚马逊 Athena 和 Amazon Redshift。无论是为企业创建单个 Amazon DataZone 域名,还是为不同的业务部门创建多个 Amazon 域名,Amazon DataZone 域名都能让您灵活地反映组织结构的数据和分析需求。 DataZone

Amazon 的 DataZone 项目和环境是什么?

Amazon 通过创建基于用例的团队、工具和数据分组, DataZone 使团队和分析用户能够在项目上进行协作。

  • 在亚马逊中 DataZone,项目使一组用户能够就各种业务用例进行协作,这些用例涉及发布、发现、订阅和使用亚马逊 DataZone 目录中的数据。项目成员使用 Amazon DataZone 目录中的资产,并使用一个或多个分析工作流程生成新资产。项目支持数据门户中的以下活动:

    • 项目所有者可以添加具有所有者和参与者权限的成员

    • 项目成员可以是SSO用户、SSO群组和IAM用户

    • 项目成员可以申请订阅数据目录中的资产

      项目获得订阅许可

  • 在 Amazon DataZone 项目中,环境是零个或多个已配置资源的集合(例如,Amazon S3、 AWS Glue 数据库,或 Amazon Athena 工作组),其中有一组可以对这些资源进行操作IAM的委托人。环境是通过使用环境配置文件创建的,环境配置文件是预先配置的资源和蓝图,为创建环境提供了可重复使用的模板。环境配置文件定义了诸如 AWS 账户 或部署环境的区域。

什么是亚马逊 DataZone 蓝图?

创建环境的蓝图定义了什么 AWS 工具和服务(例如 AWS Glue 或者 Amazon Redshift)环境所属项目的成员可以在处理亚马逊 DataZone 目录中的资产时使用。

在当前版本的 Amazon 中 DataZone,支持以下默认蓝图:

蓝图名称 描述 创建的资源
数据湖蓝图

使 Amazon DataZone 项目成员能够在环境中启动数据湖生成器和使用者服务。

作为消费者,它使亚马逊 DataZone 项目成员能够直接在Amazon Athena和其他支持Lake Formation的查询引擎中访问Lake Formation管理的资产的 “只读” 副本。

作为制作者,它使亚马逊 DataZone 项目成员能够使用 Amazon Athena 创建新的 LakeFormation托管表并将其发布到亚马逊目录中。 DataZone

使用户能够使用 Amazon Athena 创建和查询 Lake Formation 表。亚马逊 Athena 工作组, AWS Glue 具有 “只读” Lake Formation 权限、“只读” IAM 权限以及对由项目管理的 Amazon S3 的访问权限的数据库。 AWS Glue 具有 “创建” 和 “授予” Lake Formation 权限、“读取” 和 “写入” IAM 权限的数据库, AWS Glue ETL(提取、转换和加载),并添加标签。
数据仓库蓝图

作为消费者,该蓝图使亚马逊 DataZone 项目成员能够连接到自己的Amazon Redshift集群,以查询远程数据存储以及创建和存储新的数据集。

作为制作者,该蓝图使亚马逊 DataZone 项目成员能够连接到自己的 Amazon Redshift 集群,以查询远程数据存储、创建新数据集并将其发布到亚马逊 DataZone 目录。

访问亚马逊 Redshift 查询编辑器,“读取” 亚马逊 DataZone 目录中订阅的数据源,能够在配置的 Amazon Redshift 集群中创建本地资产。访问亚马逊 Redshift 查询编辑器,“读取” 亚马逊 DataZone 目录中已订阅的数据源,能够从已配置的 Amazon Redshift 集群创建和发布资产。
亚马逊 Sagemaker 蓝图

该蓝图可帮助数据生产者和消费者无缝切换 SageMaker 到 Amazon,在机器学习 (ML) 项目上进行协作,同时对数据和机器学习资产实施访问管理。借助 Amazon DataZone 和 Amazon 之间新的内置集成 SageMaker,数据使用者和创建者可以简化基础设施设置中的机器学习管理,协作开展业务计划,并轻松管理数据和机器学习资产。

您可以创建一个可以在亚马逊中搜索、订阅和发布数据和机器学习资产的亚马逊 SageMaker 域名 DataZone。也可以订阅和发布到 AWS 按照配置的 Glue 数据库和湖泊形成。

Amazon DataZone 库存和发布工作流程是什么?

创建项目清单资产

要使用亚马逊对您的数据 DataZone 进行分类,您必须先将您的数据(资产)作为项目库存带到亚马逊 DataZone。为项目创建清单,使只有该项目的成员才能发现这些资产。除非明确发布,否则并非所有域名用户都可以在搜索/浏览中使用项目清单资产。在当前版本的 Amazon 中 DataZone,您可以通过以下方式向项目库存添加资产:

  • 通过数据门户或使用 Amazon 创建和运行数据源 DataZone APIs。在当前版本的 Amazon 中 DataZone,您可以为创建和运行数据源 AWS Glue 和 Amazon Redshift。通过创建并运行 AWS Glue 或 Amazon Redshift 数据源,您可以在选定的项目清单中创建资产,然后将其技术元数据从源数据库表或数据仓库中作为库存导入到亚马逊。 DataZone

  • 使用APIs,您可以根据可用的系统资产类型创建资产 (AWS Glue、Amazon Redshift、Amazon S3 对象)或者来自你的自定义资产类型。

    • 使用 Amazon 在项目清单中创建自定义资产类型 DataZone APIs。自定义资产类型可以包括机器学习模型、仪表板、本地表格等。

    • 使用 Amazon 根据这些自定义资产类型创建资产 DataZone APIs。

  • 使用 Amazon DataZone 数据门户手动为 S3 对象创建资产。

整@@ 理项目清单资产-创建项目清单后,数据所有者可以通过添加或更新企业名称(资产和架构)、描述(资产和架构)、自述、词汇表(资产和架构)和元数据表单,使用所需的业务元数据整理库存资产。您可以通过数据门户网站或使用Amazon来完成此操作 DataZone APIs。每次对您的资产进行编辑都会创建一个新的库存版本。

将项目库存资产发布到 Amazon DataZone 目录

使用 Amazon DataZone 对您的数据进行分类的下一步是让域名用户可以发现您项目的库存资产。您可以通过将库存资产发布到 Amazon DataZone 目录来做到这一点。只有最新版本的库存资产可以发布到目录中,发现目录中只有最新发布的版本处于活动状态。如果库存资产在发布到亚马逊 DataZone 目录后进行了更新,则必须再次明确发布该库存资产,以使最新版本出现在发现目录中。在当前版本的 Amazon 中 DataZone,您可以通过以下方式将项目库存资产发布到亚马逊 DataZone 目录中:

  • 通过数据门户或使用亚马逊将您的项目库存资产手动发布到亚马逊 DataZone 目录 DataZone APIs。

  • 作为创建或编辑数据源的一部分,启用可选的 “发布你的” AWS 将资产粘贴到目录中,或者将您的 Amazon Redshift 资产发布到目录设置中,以便在计划或自动数据源运行期间使用。启用此设置后,数据源运行会将资产添加到项目的库存中,然后还将库存资产发布到 Amazon DataZone 目录。请注意,如果您直接发布,则资产可能没有任何业务元数据,所有域名用户都可以直接发现这些资产。您可以通过数据门户或使用 Amazon 在数据源上使用此设置 DataZone APIs。

Amazon DataZone 订阅和配送流程是什么?

将您的资产发布到亚马逊 DataZone 目录后,您的域用户就可以发现这些资产,请求和访问这些资产,并继续使用亚马逊 DataZone 来管理、共享和分析这些资产。

用户通过代表项目订阅资产来请求访问该资产。创建订阅请求后,资产的所有者会收到通知,可以查看订阅请求并决定是要批准还是拒绝。如果订阅请求获得数据所有者的批准,则订阅项目将被授予对该资产的访问权限。

一旦订阅请求获得批准,Amazon 就会 DataZone 开始订阅配送工作流程,通过在中创建必要的授权,自动将资产添加到项目内的所有适用环境中 AWS Lake Formation 或 Amazon Redshift。这样,订阅的项目成员就可以在其环境中使用其中一个查询工具(Amazon Athena 或 Amazon Redshift 查询编辑器)来查询资产。

Amazon DataZone 只能针对托管资产触发此自动配送逻辑(这包括 AWS Glue 表格和 Amazon Redshift 表格和视图)。对于所有其他资产类型(非托管资产),亚马逊 DataZone 无法自动触发配送,而是在Amazon Eventbridge中发布事件,并在事件负载中包含所有必要的详细信息,以便您可以在亚马逊之外创建必要的补助金。 DataZone亚马逊 DataZone 还提供了 updateSubscriptionStatusAPI,使您能够在亚马逊以外的地方完成订阅后更新订阅状态, DataZone 以便亚马逊 DataZone 可以通知项目成员他们可以开始使用资产。

Amazon 的用户角色 DataZone

以下是 Amazon DataZone 用户的主要角色:

  • 负责将 Amazon 设置 DataZone 为其组织分析平台的域管理员。

    在亚马逊环境中 DataZone,域管理员将亚马逊安装 DataZone 在 AWS 账户、创建 Amazon DataZone 域名和配置 AWS 与 Amazon DataZone 域名的账户关联和身份提供者关联。域管理员还使用其他 AWS 服务控制台,例如 AWS 组织和 Service Catalog 来配置亚马逊 DataZone。

  • 作为 Amazon DataZone (资产发布者和订阅者)执行分析和机器学习任务的主要用户的数据用户。

    数据用户包括数据分析工作者、数据科学家以及生产和使用数据资产的系统用户。在亚马逊环境中 DataZone,数据用户创建和加入项目和环境,使用预先配置的分析或机器学习工具订阅和使用数据资产,并将输出数据资产发布回亚马逊 DataZone 域名目录以与其他人共享。

  • 构建自定义基础设施模板并将 Amazon DataZone 与内部目录或生产系统集成的系统开发人员。

    在亚马逊环境中 DataZone,系统开发人员以环境提供者的身份构建环境蓝图(基础设施模板)或基础设施即代码 CI/CD 管道、用于跨环境推广数据资产的数据管道、用于与内部目录集成的目录同步和订阅赠款配送适配器,或者根据需要在亚马逊 DataZoneAPIs与内部用户界面或生产系统之间进行集成。

  • 数据治理官员,他们拥有组织安全、隐私和其他合规政策的定义和风险,并确保其组织 DataZone 中对亚马逊的使用符合这些定义。

亚马逊 DataZone 术语

Amazon DataZone 域名是将您的资产、用户及其项目连接在一起的组织实体。借助 Amazon DataZone 域名,您可以灵活地反映组织结构的数据和分析需求,无论是为企业创建单个 Amazon DataZone 域还是为不同的业务部门或团队创建多个数据区;域名。

域单元

域单元使您可以轻松地将资产和其他域实体组织到特定的业务部门和团队下。要在组织各业务部门内部和各业务部门之间设置安全高效的数据共享,您可以在 Amazon 内创建域单元, DataZone 并允许每个业务部门内的选定用户登录并将其资产共享到目录中。域单位也可以用来启用资源所有者,例如 AWS 账户所有者,为其资源设置 Amazon DataZone 授权权限。域单位为账户所有者提供授权给域单元所有者,他们可以代表账户所有者对环境配置文件(使用蓝图配置创建)设置授权权限。有关更多信息,请参阅 Amazon 中的域名单位和授权政策 DataZone

授权策略

亚马逊 DataZone 授权策略是亚马逊内部的一组控制措施, DataZone 适用于项目、蓝图、环境、词汇表和元数据表单等实体。这些策略定义了谁可以在 Amazon DataZone 门户中创建这些实体并管理其生命周期。

在 Amazon DataZone 域单位内,您可以将以下授权策略分配给您的用户和群组,以授予他们特定的权限:

  • 域单元创建政策

  • 项目创建政策

  • 项目成员政策

  • 域单位所有权假设政策

  • 项目所有权假设政策

有关更多信息,请参阅 为 Amazon DataZone 域单位内的用户和群组分配授权策略

在 Amazon DataZone 域单位内,您可以将以下授权策略分配给您的项目,以授予其特定权限:

  • 词汇表创建政策

  • 元数据表单创建政策

  • 自定义资产类型创建政策

有关更多信息,请参阅 为 Amazon DataZone 域单位内的项目分配授权策略

在特定的蓝图配置中,您可以将以下授权策略分配给项目和域单元所有者:

  • 使用此蓝图创建环境配置文件-此策略可以分配给 Amazon DataZone 项目,并授权他们使用此蓝图创建环境配置文件。

  • 授予使用此蓝图创建环境配置文件的权限-此策略可以分配给域单元所有者,并授权他们向项目授予使用此蓝图创建环境配置文件的权限。

有关更多信息,请参阅 在 Amazon DataZone 蓝图配置中分配授权策略

关联账户

关联你的 AWS 拥有 Amazon DataZone 域名的账户允许您发布来自这些域名的数据 AWS 将账户存入亚马逊 DataZone 目录并创建亚马逊 DataZone 项目以处理您的多个数据 AWS 账户。账户关联请求只能在以下位置发起 AWS 拥有 Amazon DataZone 域名的账户。账户关联请求只能由受邀者的管理员用户接受 AWS 账户。曾经是 AWS 账户与 Amazon DataZone 域名相关联,您可以注册您的数据源,例如 AWS 将此账户中的 Glue 目录和 Amazon Redshift 粘贴到这个域名。关联还能实现 AWS 用于创建 Amazon DataZone 项目和环境的账户。

网络 ACL 和安全组都允许 (因此可到达您的实例) 的发起 ping 的 AWS 账户 可以与一个或多个 Amazon DataZone 域名关联。

数据来源

在 Amazon 中 DataZone,您可以使用数据源将来自源数据库或数据仓库的资产(数据)的技术元数据导入亚马逊 DataZone。在当前版本的 Amazon 中 DataZone,您可以为创建和运行数据源 AWS Glue 和 Amazon Redshift。通过创建数据源,您可以在 Amazon DataZone 和数据源之间建立连接 (AWS Glue Data Catalog 或 Amazon Redshift Warehoushift Warehouse),它使您可以读取技术元数据,包括表名称、列名和数据类型。通过创建数据源,您还可以启动初始数据源运行,在 Amazon 中创建新资产或更新现有资产 DataZone。在创建数据源时或成功创建数据源之后,您还可以选择为数据源运行指定计划。

数据源运行

在亚马逊中 DataZone,数据源运行是亚马逊 DataZone 执行的一项任务,目的是在项目清单中创建资产,也可以选择将项目库存资产发布到亚马逊 DataZone 目录。数据源运行可以是自动运行(在最初创建数据源时启动)、计划运行或手动运行。数据选择标准使您能够微调要提取到项目清单或 Amazon 目录中的现有和未来数据集,以及这些库存或 DataZone目录资产的元数据更新频率。

订阅目标

在 Amazon 中 DataZone,订阅目标允许您访问在项目中订阅的数据。订阅目标指定了位置(例如数据库或架构)和所需的权限(例如IAM角色),亚马逊 DataZone 可以使用这些权限与源数据建立连接并创建必要的授权,以便亚马逊 DataZone 项目的成员可以开始查询他们已订阅的数据。

订阅请求

在亚马逊 DataZone,订阅请求是亚马逊 DataZone 项目必须遵循的流程才能获得对特定资产的访问权限。订阅请求可以获得批准、拒绝、撤销或批准。

资产

在 Amazon DataZone 中,资产是呈现单个物理数据对象(例如,表、仪表板、文件)或虚拟数据对象(例如视图)的实体。

Asset type

资产类型定义了资产在 Amazon DataZone 目录中的呈现方式。资产类型定义特定类型资产的架构。创建资产时,将根据其资产类型(默认为最新版本)定义的架构对其进行验证。当资产更新发生时,Amazon DataZone 会创建一个新的资产版本,并允许亚马逊 DataZone 用户对所有资产版本进行操作。

商业词汇表

在亚马逊中 DataZone,业务词汇表是可能与资产相关的商业术语的集合。业务词汇表有助于确保组织在执行各种数据分析任务时使用相同的术语和定义。

可以将业务词汇表中的术语添加到资产和列中,以便在搜索过程中对这些属性进行分类或增强对这些属性的识别。可以选择词汇表作为元数据表单中与资产关联的字段的值类型。当选择特定术语作为资产元数据表单字段的值时,用户可以搜索业务词汇表术语并找到关联的资产。

元数据表单类型

元数据表单类型是一种模板,用于定义在将资产创建为库存或在 Amazon DataZone 域中发布时收集和保存的元数据。元数据表单类型可以与数据资产相关联。元数据表单类型可帮助域管理员定义该域所需的元数据表单,例如合规性信息、监管信息或分类。它使域管理员能够为其资产自定义其他元数据。Amazon DataZone 有系统元数据表单类型,例如 asset-common-details-form-type、 column-business-metadata-form-type glue-table-form-type、 glue-view-form-type、、 redshift-table-form-type、 redshift-view-form-type、、s3-object-collection-form-type subscription-terms-form-type、和。 suggestion-form-type

元数据表单

在亚马逊中 DataZone,元数据表单定义了在将资产创建为库存或在亚马逊 DataZone 域中发布时收集和保存的元数据。元数据表单定义由域管理员在目录域中创建。元数据表单定义由一个或多个字段定义组成,支持布尔值、日期、十进制、整数、字符串和业务词汇表字段值数据类型。

域管理员通过将元数据表单添加到其网域中,将元数据表单应用于其网域中的资产。然后,资源发布者在元数据表单中提供任何可选和必填的字段值。

项目

在亚马逊中 DataZone,项目允许一组用户就各种业务用例进行协作,这些用例涉及在项目清单中创建资产,从而使所有项目成员都能发现这些资产,然后发布、发现、订阅和使用亚马逊 DataZone 目录中的资产。项目成员使用 Amazon DataZone 目录中的资产,并使用一个或多个分析工作流程生成新资产。项目成员可以是所有者或贡献者。项目所有者可以添加或移除其他用户作为所有者或参与者,也可以修改或删除项目。对贡献者的其他限制可以通过政策来定义。当用户创建项目时,他们将成为该项目的第一个所有者。

环境

环境是已配置资源的集合(例如,Amazon S3 存储桶、 AWS Glue 数据库,或 Amazon Athena 工作组),拥有一组可以操作IAM这些资源的委托人(具有分配的贡献者权限)。每个环境还可能有用户主体,他们有权通过订阅和履行访问资源和访问数据。环境旨在将可操作的链接存储到 AWS 服务以及外部IDEs和控制台。项目成员可以通过环境中配置的深度链接访问诸如 Amazon Athena 控制台等服务。SSO可以进一步将项目中的IAM用户和用户范围缩小到使用/访问特定的环境。

环境概况

在 Amazon 中 DataZone,环境配置文件是您可以用来创建环境的模板。环境配置文件是使用蓝图创建的。

使用环境配置文件,域管理员可以用预先配置的参数封装蓝图,然后数据工作者可以通过选择现有环境配置文件并为新环境指定名称来快速创建任意数量的新环境。这使数据工作者能够高效地管理其项目和环境,同时确保他们满足域管理员实施的数据治理策略。

蓝图

创建环境的蓝图定义了什么 AWS 工具和服务(例如 AWS Glue 或者 Amazon Redshift)环境所属项目的成员可以在处理亚马逊 DataZone 目录中的资产时使用。

在当前版本的 Amazon DataZone 中,支持以下默认蓝图:

  • 数据湖蓝图

  • 数据仓库蓝图

  • 亚马逊 Sagemaker 蓝图

用户配置文件

用户个人资料代表 Amazon DataZone 用户。Amazon DataZone 支持IAM角色和SSO身份出于不同目的与亚马逊 DataZone 管理控制台和数据门户进行交互。域管理员使用IAM角色在 Amazon DataZone 管理控制台中执行与域相关的初始管理工作,包括创建新的 Amazon DataZone 域名、配置元数据表单类型和实施策略。数据工作者通过 Identity Center 使用其SSO企业身份登录亚马逊 DataZone 数据门户并访问他们拥有成员资格的项目。

群组简介

群组资料代表一组 Amazon DataZone 用户。群组可以手动创建,也可以映射到企业客户的 Active Directory 群组。在 Amazon 中 DataZone,群组有两个用途。首先,一个小组可以映射到组织结构图中的用户团队,从而在有新员工加入或离开团队时减少 Amazon DataZone 项目负责人的管理工作。其次,企业管理员使用 Active Directory 群组来管理和更新用户状态,因此亚马逊 DataZone 域管理员可以使用这些群组成员资格来实施亚马逊 DataZone 域名政策。

域管理员

在亚马逊中 DataZone,创建亚马逊 DataZone 域名的IAM委托人是该域的默认域管理员。Amazon 中的域管理员为域 DataZone 执行关键功能,包括创建域、分配其他域管理员、添加数据源和订阅目标、创建项目和环境以及分配项目所有者。

出版商

在亚马逊 DataZone,出版商将资产发布到亚马逊 DataZone 目录中,并且可以编辑他们发布的资产的元数据。如果获得此权限,出版商可以批准或拒绝其在 Amazon DataZone 目录中发布的资产的订阅请求。

订阅者

在亚马逊中 DataZone,订阅者是一个想要查找、访问和使用亚马逊 DataZone 目录中的资产的亚马逊 DataZone 项目。

AWS 账户 owner

在亚马逊 DataZone, AWS 账户 所有者在其中创建角色、策略和权限 AWS 账户 这样可以实现这些 AWS 账户 与 Amazon DataZone 域名关联。