亚马逊 DataZone 内置蓝图 - 亚马逊 DataZone

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

亚马逊 DataZone 内置蓝图

用于创建环境的蓝图定义了环境所属项目的成员在处理 Amazon DataZone 目录中的资产时可以使用的工具和服务。在当前版本的 Amazon 中 DataZone,有以下内置蓝图:

  • 数据湖蓝图

  • 数据仓库蓝图

  • 亚马逊 SageMaker 蓝图

您可以按照以下过程中的步骤在 Amazon DataZone 中启用默认蓝图:

在中启用内置蓝图 AWS 拥有 Amazon DataZone 域名的账户

用于创建环境的蓝图定义了环境所属项目的成员在处理 Amazon DataZone 目录中的资产时可以使用的工具和服务。

在当前版本的 Amazon 中 DataZone,有几个内置蓝图:数据湖蓝图、数据仓库蓝图和亚马逊 SageMaker 蓝图。

  • 数据湖蓝图包含启动和配置一组服务的定义 (AWS Glue, AWS Lake Formation,Amazon Athena)将在亚马逊目录中发布和使用数据湖资产。 DataZone

  • 数据仓库蓝图包含启动和配置一组服务(Amazon Redshift)以发布和使用亚马逊目录中的亚马逊 Redshift 资产的定义。 DataZone

  • 亚马逊 SageMaker 蓝图包含启动和配置一组服务(Amazon SageMaker Studio)以发布和使用亚马逊 DataZone 目录中的亚马逊 SageMaker 资产的定义。

有关更多信息,请参阅 Amazon DataZone 术语和概念

创建 Amazon DataZone 域时,您可以选择在域创建过程中自动启用默认数据湖和默认数据仓库内置蓝图的快速设置快速设置还可以使用这些内置蓝图为您创建默认环境配置文件和默认环境。

如果您在创建 Amazon DataZone 域名时没有选择 “快速设置”,则可以使用以下步骤在中启用可用的内置蓝图 AWS 存放此 Amazon DataZone 域名的账户。必须先启用这些内置蓝图,然后才能使用它们在此域中创建环境配置文件和环境。

要通过亚马逊 DataZone 管理控制台在亚马逊 DataZone 域中启用内置蓝图,您必须在账户中IAM扮演具有管理权限的角色。 配置使用 Amazon DataZone 管理控制台所需的IAM权限以获得最低权限。

在 Amazon DataZone 域中启用内置蓝图
  1. 前往位于 https://console.aws.amazon.com/datazone 的亚马逊 DataZone 控制台,然后使用您的账户凭证登录。

  2. 选择查看域,然后选择要在其中启用一个或多个内置蓝图的域。

  3. 在域名详细信息页面上,导航至蓝图选项卡。

  4. 蓝图列表中选择、DefaultDataLakeAmazon SageMaker 蓝图。DefaultDataWarehouse

  5. 在所选蓝图的详细信息页面上,选择在此账户中启用

  6. 在 “权限和资源” 页面上,指定以下内容:

    • 如果您要启用DefaultDataLake蓝图,请为 Glue 管理访问权限角色指定一个新的或现有的服务角色,该角色 DataZone 授予亚马逊在中提取和管理对表的访问权限的授权 AWS Glue 和 AWS Lake Formation。

    • 如果您要启用DefaultDataWarehouse蓝图,请为 Redshift 管理访问权限角色指定一个新的或现有的服务角色,该角色 DataZone 授权亚马逊获取和管理对 Amazon Redshift 中的数据共享、表和视图的访问权限。

    • 如果您要启用亚马逊 SageMaker蓝图,请为SageMaker 管理访问角色指定一个新的或现有的服务角色,以授予亚马逊向目录发布亚马逊 SageMaker 数据的 DataZone权限。它还授予亚马逊授予访问 DataZone 权限或撤销对亚马逊在目录中 SageMaker 发布的资产的访问权限的权限。

      重要

      当您启用亚马逊 SageMaker蓝图时,亚马逊 DataZone 会检查当前账户和地区中是否 DataZone 存在以下亚马逊IAM角色。如果这些角色不存在,Amazon DataZone 会自动创建它们。

      • AmazonDataZoneGlueAccess-<region>-< > domainId

      • AmazonDataZoneRedshiftAccess-<region>-< > domainId

    • 对于配置角色,请指定一个新的或现有的服务角色,该角色 DataZone 授予 Amazon 使用创建和配置环境资源的授权 AWS CloudFormation 在环境账户和区域中。

    • 如果您要为 SageMaker-Glu e 数据源的 Amazon S3 存储桶启用亚马逊 SageMaker蓝图,请指定一个供所有 SageMaker 环境使用的 Amazon S3 存储桶 AWS account。您指定的存储桶前缀必须是以下之一:

      • 亚马逊数据区*

      • datazone-sagemaker*

      • sagemaker-datazone*

      • DataZone-Sagemaker*

      • Sagemaker-* DataZone

      • DataZone-SageMaker*

      • SageMaker-DataZone*

  7. 选择启用蓝图

启用所选蓝图后,您可以控制哪些项目可以使用您账户中的蓝图来创建环境配置文件。为此,您可以将管理项目分配给蓝图的配置。

重要

默认情况下,没有为环境蓝图指定管理项目,这意味着任何 Amazon DataZone 用户都可以为环境蓝图创建配置文件。因此,强烈建议您始终为环境蓝图指定管理项目,以确保加强治理。

指定在已启用的蓝图上管理项目
  1. 前往位于 https://console.aws.amazon.com/datazone 的亚马逊 DataZone 控制台,然后使用您的账户凭证登录。

  2. 选择 “查看域”,然后选择要为所选蓝图添加管理项目的域。

  3. 选择蓝图选项卡,然后选择要使用的蓝图。

  4. 默认情况下,域内的所有项目都可以使用账户中的 DefaultDataLake 或或 DefaultDataWareshouse Amazon SageMaker 蓝图来创建环境配置文件。但是,您可以通过将管理项目分配给蓝图来限制这一点。要添加管理项目,请选择选择管理项目,然后从下拉菜单中选择要添加为管理项目的项目,然后选择选择管理项目

启用 DefaultDataWarehouse 蓝图后 AWS 帐户,您可以将参数集添加到蓝图配置中。参数集是一组键和值,是亚马逊 DataZone 与您的 Amazon Redshift 集群建立连接所必需的,用于创建数据仓库环境。这些参数包括您的 Amazon Redshift 集群的名称、数据库和 AWS 保存集群凭证的密钥。

向 DefaultDataWarehouse 蓝图添加参数集
  1. 前往位于 https://console.aws.amazon.com/datazone 的亚马逊 DataZone 控制台,然后使用您的账户凭证登录。

  2. 选择 “查看域”,然后选择要添加参数集的域。

  3. 选择蓝图选项卡,然后选择 DefaultDataWareshouse 蓝图以打开蓝图详细信息页面。

  4. 在蓝图详细信息页面的参数集选项卡下,选择创建参数集

    • 为参数集提供一个名称。

    • (可选)提供参数集的描述。

    • 选择一个区域

    • 选择 Amazon Redshift 集群或亚马逊 Redshift Serverless。

    • 选择 AWS 保存ARN所选 Amazon Redshift 集群或 Amazon Redshift 无服务器工作组凭证的密钥。这些区域有: AWS secret 必须用AmazonDataZoneDomain : [Domain_ID]标签标记,才有资格在参数集中使用。

      • 如果你没有现有 AWS secret,您也可以通过选择 “新建” 来创建新密钥 AWS 秘密。这将打开一个对话框,您可以在其中提供密钥的名称、用户名和密码。选择 “新建” 后 AWS Secret,Amazon DataZone 在 AWS Secrets Manager 服务并确保使用您尝试创建参数集的域名对密钥进行标记。

    • 如果您在上述步骤中选择了 Amazon Redshift 集群,那么现在请从下拉列表中选择一个集群。如果您在上述步骤中选择了 Amazon Redshift 工作组,那么现在请从下拉列表中选择一个工作组。

    • 输入所选 Amazon Redshift 集群或 Amazon Redshift 无服务器工作组中的数据库名称。

    • 选择 “创建参数集”

注意

您最多只能向 DefaultDataWarehouse蓝图添加 10 个参数集。

在您的 Amazon SageMaker 蓝图中启用后 AWS 帐户,您可以将参数集添加到蓝图配置中。参数集是一组键和值,是亚马逊与您的亚马逊 DataZone SageMaker 建立连接所必需的,用于创建 sagemaker 环境。

向 Amazon SageMaker 蓝图添加参数集
  1. 前往位于 https://console.aws.amazon.com/datazone 的亚马逊 DataZone 控制台,然后使用您的账户凭证登录。

  2. 选择查看域,然后选择包含要在其中添加参数集的已启用蓝图的域。

  3. 选择蓝图选项卡,然后选择亚马逊 SageMaker 蓝图以打开蓝图的详细信息页面。

  4. 在蓝图详细信息页面的参数集选项卡下,选择创建参数集,然后指定以下内容:

    • 为参数集提供一个名称

    • (可选)为参数集提供描述

    • 指定 Amazon SageMaker 域名身份验证类型。您可以选择 “IAMIAM身份中心” (SSO)。

    • 指定一个 AWS 区域。

    • 指定一个 AWS KMS数据加密的密钥。您可以选择现有密钥或创建新密钥。

    • 环境参数下,指定以下内容:

      • VPCID-您用于亚马逊 SageMaker 环境VPC的 ID。您可以指定现有的,也可以创建新的VPC。

      • 子网-一个或多个IDs子网代表您VPC内部特定资源的 IP 地址范围。

      • 网络访问-仅选择或VPC仅限公共互联网

      • 安全组-配置VPC和子网时使用的安全组。

    • 在 “数据源参数” 下,选择以下选项之一:

      • AWS 仅限 Glue

      • AWS Glue + Amazon Redshift Serverless。如果选择此选项,请指定以下内容:

        • 指定 AWS 保存ARN所选 Amazon Redshift 集群凭证的密钥。这些区域有: AWS secret 必须用AmazonDataZoneDomain : [Domain_ID]标签标记,才有资格在参数集中使用。

          如果你没有现有 AWS secret,您也可以通过选择 “新建” 来创建新密钥 AWS 秘密。这将打开一个对话框,您可以在其中提供密钥的名称、用户名和密码。选择 “新建” 后 AWS Secret,Amazon DataZone 在 AWS Secrets Manager 服务并确保使用您尝试创建参数集的域名对密钥进行标记。

        • 指定要在创建环境时使用的 Amazon Redshift 工作组。

        • 指定要在创建环境时使用的数据库(在您选择的工作组中)的名称。

      • AWS 仅限 Glue + 亚马逊 Redshift 集群

        • 指定 AWS 保存ARN所选 Amazon Redshift 集群凭证的密钥。这些区域有: AWS secret 必须用AmazonDataZoneDomain : [Domain_ID]标签标记,才有资格在参数集中使用。

          如果你没有现有 AWS secret,您也可以通过选择 “新建” 来创建新密钥 AWS 秘密。这将打开一个对话框,您可以在其中提供密钥的名称、用户名和密码。选择 “新建” 后 AWS Secret,Amazon DataZone 在 AWS Secrets Manager 服务并确保使用您尝试创建参数集的域名对密钥进行标记。

        • 指定要在创建环境时使用的 Amazon Redshift 集群。

        • 指定要在创建环境时使用的数据库(在您选择的集群中)的名称。

  5. 选择 “创建参数集”

将 Amazon 添加 SageMaker 为可信服务 AWS 拥有 Amazon DataZone 域名的账户

如果您启用了亚马逊 SageMaker 蓝图,则还必须将其添加 SageMaker 为亚马逊内部的可信服务之一 DataZone。为此,请完成以下步骤:

  1. 前往位于 https://console.aws.amazon.com/datazone 的亚马逊 DataZone 控制台,然后使用您的账户凭证登录。

  2. 选择查看域,然后选择包含已启用 SageMaker 蓝图的域。

  3. 选择可信服务,然后选择亚马逊 SageMaker,然后选择启用