包含 Amazon Redshift 数据的 Amazon DataZone 快速入门 - Amazon DataZone

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

包含 Amazon Redshift 数据的 Amazon DataZone 快速入门

完成以下快速入门步骤,使用示例 Amazon Redshift 数据在 Amazon DataZone 中运行完整的数据创建者和数据使用者工作流。

步骤 1 – 创建 Amazon DataZone 域和数据门户

完成以下过程可创建 Amazon DataZone 域。有关 Amazon DataZone 域的更多信息,请参阅 Amazon DataZone 术语和概念

  1. 导航到 Amazon DataZone 控制台(网址为 https://console.aws.amazon.com/datazone),进行登录,然后选择创建域

    注意

    如果您需要在此工作流中使用现有 Amazon DataZone 域,请选择查看域,再选择要使用的域,然后继续执行“步骤 2:创建发布项目”。

  2. 创建域页面上,提供以下字段的值:

    • 名称 – 指定您的域的名称。在此工作流中,您可以将此域命名为 Marketing

    • 描述 – 指定可选的域描述。

    • 数据加密 – 默认情况下,使用 AWS 为您保管的密钥来加密您的数据。在本演练中,您可以保留默认的数据加密设置。

      有关客户自主管理型密钥的更多信息,请参阅 Amazon 的静态数据加密 DataZone。如果您使用自己的 KMS 密钥进行数据加密,则必须在默认 AmazonDataZoneDomainExecutionRole 中包含以下语句。

      { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "kms:Decrypt", "kms:GenerateDataKey" ], "Resource": "*" } ] }
    • 服务访问权限 – 选择使用自定义服务角色选项,然后从下拉菜单中选择 AmazonDataZoneDomainExecutionRole

    • 快速设置功能下,选择设置此账户以使用和发布数据。此选项启用数据湖数据仓库的内置 Amazon DataZone 蓝图,并配置完成此工作流中的其余步骤所需的权限和资源。有关 Amazon DataZone 蓝图的更多信息,请参阅 Amazon DataZone 术语和概念

    • 权限详细信息标签下的其余字段保持不变,然后选择创建域

  3. 成功创建一个域后,选择此域,然后在此域的摘要页面上记下此域的数据门户 URL。您可以使用该 URL 访问您的 Amazon DataZone 数据门户,以完成此工作流中的其余步骤。

注意

在当前版本的 Amazon DataZone 中,一旦创建域,就无法修改为数据门户生成的 URL。

域创建过程可能需要几分钟的时间才能完成。等待域状态变为可用,然后再继续执行下一步。

步骤 2 – 创建发布项目

以下部分介绍在此工作流中创建发布项目的步骤。

  1. 完成步骤 1 后,使用 Amazon DataZone 数据门户 URL 导航到该数据门户,然后使用单点登录(SSO)或 AWS IAM 凭证登录。

  2. 选择创建项目,指定项目名称,例如,在此工作流中,将项目命名为 SalesDataPublishingProject,再将其余字段保持不变,然后选择创建

步骤 3 – 创建环境

以下部分介绍在此工作流中创建环境的步骤。

  1. 完成步骤 2 后,在 Amazon DataZone 数据门户中,选择上一步中创建的 SalesDataPublishingProject 项目,再选择环境选项卡,然后选择创建环境

  2. 创建环境页面上,指定以下内容,然后选择创建环境

    • 名称 – 指定环境的名称。在本演练中,您可以将它命名为 Default data warehouse environment

    • 描述 – 指定环境的描述。

    • 环境配置文件 – 选择 DataWarehouseProfile 环境配置文件。

    • 提供您的 Amazon Redshift 集群的名称、数据库名称以及存储数据的 Amazon Redshift 集群的密钥 ARN。

      注意

      确保您在 AWS Secrets Manager 中的密钥包含以下标签(键/值):

      • 对于 Amazon Redshift 集群 – datazone.rs.cluster:<cluster_name:database name>

        对于 Amazon Redshift Serverless 工作组 – datazone.rs.workgroup:<workgroup_name:database_name>

      • AmazonDataZoneProject:<projectID>

      • AmazonDataZoneDomain:<domainID>

      有关更多信息,请参阅在 AWS Secrets Manager 中存储数据库凭证

      您在 AWS Secrets Manager 中提供的数据库用户必须具有超级用户权限。

步骤 4 – 创建数据以供发布

以下部分介绍在此工作流中创建用于发布的数据的步骤。

  1. 完成步骤 3 后,在 Amazon DataZone 数据门户中,选择 SalesDataPublishingProject 项目,然后在右侧面板中分析工具下,选择 Amazon Redshift。这将打开 Amazon Redshift 查询编辑器,使用项目的凭证进行身份验证。

  2. 在本演练中,您将使用按选定方式创建表(CTAS)查询脚本来创建要发布到 Amazon DataZone 的新表。在查询编辑器中,执行此 CTAS 脚本来创建一个可发布并可供搜索和订阅的 mkt_sls_table 表。

    CREATE TABLE mkt_sls_table AS SELECT 146776932 AS ord_num, 23 AS sales_qty_sld, 23.4 AS wholesale_cost, 45.0 as lst_pr, 43.0 as sell_pr, 2.0 as disnt, 12 as ship_mode,13 as warehouse_id, 23 as item_id, 34 as ctlg_page, 232 as ship_cust_id, 4556 as bill_cust_id UNION ALL SELECT 46776931, 24, 24.4, 46, 44, 1, 14, 15, 24, 35, 222, 4551 UNION ALL SELECT 46777394, 42, 43.4, 60, 50, 10, 30, 20, 27, 43, 241, 4565 UNION ALL SELECT 46777831, 33, 40.4, 51, 46, 15, 16, 26, 33, 40, 234, 4563 UNION ALL SELECT 46779160, 29, 26.4, 50, 61, 8, 31, 15, 36, 40, 242, 4562 UNION ALL SELECT 46778595, 43, 28.4, 49, 47, 7, 28, 22, 27, 43, 224, 4555 UNION ALL SELECT 46779482, 34, 33.4, 64, 44, 10, 17, 27, 43, 52, 222, 4556 UNION ALL SELECT 46779650, 39, 37.4, 51, 62, 13, 31, 25, 31, 52, 224, 4551 UNION ALL SELECT 46780524, 33, 40.4, 60, 53, 18, 32, 31, 31, 39, 232, 4563 UNION ALL SELECT 46780634, 39, 35.4, 46, 44, 16, 33, 19, 31, 52, 242, 4557 UNION ALL SELECT 46781887, 24, 30.4, 54, 62, 13, 18, 29, 24, 52, 223, 4561

    确保已成功创建 mkt_sls_table 表。现在,您已拥有可发布到 Amazon DataZone 目录中的数据资产。

步骤 5 – 从 Amazon Redshift 收集元数据

以下部分介绍从 Amazon Redshift 收集元数据的步骤。

  1. 完成步骤 4 后,在 Amazon DataZone 数据门户中,选择 SalesDataPublishingProject 项目,再选择数据选项卡,然后选择数据来源

  2. 选择在环境创建过程中创建的来源。

  3. 选择操作下拉菜单旁边的运行,然后选择刷新按钮。数据来源运行完成后,这些资产将添加到 Amazon DataZone 库存中。

步骤 6 – 整理和发布数据资产

以下部分介绍在此工作流中整理和发布数据资产的步骤。

  1. 完成步骤 5 后,在 Amazon DataZone 数据门户中,选择 SalesDataPublishingProject 项目,再选择数据选项卡,选择库存数据,然后找到 mkt_sls_table 表。

  2. 打开 mkt_sls_table 资产的详细信息页面以查看自动生成的企业名称。选择自动生成的元数据图标以查看自动生成的资产名称和列名称。您可以分别接受或拒绝每个名称,也可以选择全部接受以应用生成的名称。或者,您也可以将可用的元数据表单添加到资产中,并选择术语表术语来对数据进行分类。

  3. 选择发布以发布 mkt_sls_table 资产。

步骤 7 – 创建用于数据分析的项目

以下部分介绍在此工作流中创建用于数据分析的项目的步骤。

  1. 完成步骤 6 后,在 Amazon DataZone 数据门户中,选择创建项目

  2. 创建项目页面上,指定项目名称,例如,在此工作流中,您可以将项目命名为 MarketingDataAnalysisProject,再将其余字段保持不变,然后选择创建

步骤 8 – 创建用于数据分析的环境

以下部分介绍在此工作流中创建用于数据分析的环境的步骤。

  1. 完成步骤 7 后,在 Amazon DataZone 数据门户中,选择上一步中创建的 MarketingDataAnalysisProject 项目,再选择环境选项卡,然后选择添加环境

  2. 创建环境页面上,指定以下内容,然后选择创建环境

    • 名称 – 指定环境的名称。在本演练中,您可以将它命名为 Default data warehouse environment

    • 描述 – 指定环境的描述。

    • 环境配置文件 – 选择 DataWarehouseProfile 环境配置文件。

    • 提供您的 Amazon Redshift 集群的名称、数据库名称以及存储数据的 Amazon Redshift 集群的密钥 ARN。

      注意

      确保您在 AWS Secrets Manager 中的密钥包含以下标签(键/值):

      • 对于 Amazon Redshift 集群 – datazone.rs.cluster:<cluster_name:database name>

        对于 Amazon Redshift Serverless 工作组 – datazone.rs.workgroup:<workgroup_name:database_name>

      • AmazonDataZoneProject:<projectID>

      • AmazonDataZoneDomain:<domainID>

      有关更多信息,请参阅在 AWS Secrets Manager 中存储数据库凭证

      您在 AWS Secrets Manager 中提供的数据库用户必须具有超级用户权限。

    • 在本演练中,将其余字段保持不变。

步骤 9 – 搜索数据目录并订阅数据

以下部分介绍搜索数据目录和订阅数据的步骤。

  1. 完成步骤 8 后,在 Amazon DataZone 数据门户中,在数据门户的搜索栏中使用关键字(例如“catalog”或“sales”)搜索数据资产。

    如有必要,可应用筛选条件或排序,在找到产品销售数据资产后,可选择该资产以打开其详细信息页面。

  2. 在产品销售数据资产的详细信息页面上,选择订阅

  3. 在对话框中,从下拉列表中选择使用者项目,提供访问请求的原因,然后选择订阅

步骤 10 – 批准订阅请求

以下部分介绍在此工作流中批准订阅请求的步骤。

  1. 完成步骤 9 后,在 Amazon DataZone 数据门户中,选择用于发布资产的 SalesDataPublishingProject 项目。

  2. 选择数据选项卡,再选择已发布的数据,然后选择传入的请求

  3. 选择查看请求链接,然后选择批准

步骤 11 – 在 Amazon Redshift 中构建查询并分析数据

现在您已成功将资产发布到 Amazon DataZone 目录并订阅该资产,可以分析该资产了。

  1. 在 Amazon DataZone 数据门户中的右侧面板上,单击 Amazon Redshift 链接。这将打开 Amazon Redshift 查询编辑器,使用项目的凭证进行身份验证。

  2. 现在,您可以对订阅的表运行查询(select 语句)。您可以单击表(三个垂直点选项),然后选择“预览”以在编辑器屏幕上显示 select 语句。执行查询以查看结果。