亚马逊 DataZone 快速入门 Glue AWS 数据 - Amazon DataZone

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

亚马逊 DataZone 快速入门 Glue AWS 数据

完成以下快速入门步骤,使用示例 AWS Glue 数据在 Amazon 中运行完整的数据生成器和数据 DataZone 使用者工作流程。

第 1 步-创建 Amazon DataZone 域名和数据门户

本节介绍为此工作流程创建 Amazon DataZone 域和数据门户的步骤。

完成以下步骤创建 Amazon DataZone 域名。有关 Amazon DataZone 域名的更多信息,请参阅亚马逊 DataZone 术语和概念

  1. 导航至 https://console.aws.amazon.com/datazone 上的亚马逊 DataZone 控制台,登录,然后选择创建域名。

    注意

    如果您想在此工作流程中使用现有 Amazon DataZone 域名,请选择查看域名,然后选择要使用的域名,然后继续执行创建发布项目的第 2 步。

  2. 创建域页面上,提供以下字段的值:

    • 名称 – 指定您的域的名称。在此工作流中,您可以将此域命名为 Marketing

    • 描述 – 指定可选的域描述。

    • 数据加密-默认情况下,您的数据使用为您 AWS 拥有和管理的密钥进行加密。在此应用场景中,您可以保留默认的数据加密设置。

      有关客户自主管理型密钥的更多信息,请参阅 Amazon 的静态数据加密 DataZone。如果您使用自己的 KMS 密钥进行数据加密,则必须在默认 AmazonDataZoneDomainExecutionRole 中包含以下语句。

      { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "kms:Decrypt", "kms:GenerateDataKey" ], "Resource": "*" } ] }
    • 服务访问权限 – 默认情况下,将已选定的使用默认角色选项保持不变。

      注意

      如果您在此工作流程中使用现有 Amazon DataZone 域名,则可以选择 “使用现有服务角色” 选项,然后从下拉菜单中选择现有角色。

    • 快速设置功能下,选择设置此账户以使用和发布数据。此选项启用内置的 Amazon 数据湖数据仓库 DataZone 蓝图,并为该账户配置所需的权限、资源、默认项目以及默认数据湖和数据仓库环境配置文件。有关 Amazon DataZone 蓝图的更多信息,请参阅亚马逊 DataZone 术语和概念

    • 权限详细信息下的其余字段保持不变。

      注意

      如果您已有 Amazon DataZone 域名,则可以选择 “使用现有服务角色” 选项,然后从 Glue 管理访问角色、Redshift 管理访问角色配置角色的下拉菜单中选择现有角色

    • 标签下的字段保持不变。

    • 选择创建域

  3. 成功创建一个域后,选择此域,然后在此域的摘要页面上记下此域的数据门户 URL。您可以使用此 URL 访问您的 Amazon DataZone 数据门户,以完成此工作流程中的其余步骤。您也可以通过选择打开数据门户来导航到数据门户。

注意

在当前版本的 Amazon 中 DataZone,一旦创建了域,就无法修改为数据门户生成的 URL。

域创建过程可能需要几分钟的时间才能完成。等待域状态变为可用,然后再继续执行下一步。

步骤 2 – 创建发布项目

此部分介绍为此工作流创建发布项目所需的步骤。

  1. 完成上述步骤 1 并创建域名后,您将看到 “欢迎来到亚马逊 DataZone! 窗口。在此窗口中,选择创建项目

  2. 例如,为该工作流程指定项目名称,您可以为其命名 SalesDataPublishingProject,然后将其余字段保持不变,然后选择 “创建”。

步骤 3 – 创建环境

此部分介绍为此工作流创建环境所需的步骤。

  1. 完成上述步骤 2 并创建项目后,您将看到您的项目已准备就绪,可以开始使用了!窗口。在此窗口中,选择创建环境

  2. 创建环境页面上,指定以下内容,然后选择创建环境

  3. 为以下字段指定值:

    • 名称 – 指定环境的名称。在本演练中,您可以将它命名为 Default data lake environment

    • 描述 – 指定环境的描述。

    • 环境配置文件-选择DataLakeProfile环境配置文件。这使您能够在此工作流程 DataZone 中使用亚马逊来处理亚马逊 S3、 AWS Glue Catalog 和 Amazon Athena 中的数据。

    • 在本演练中,将其余字段保持不变。

  4. 选择创建环境

步骤 4 – 创建数据以供发布

此部分介绍为此工作流创建数据以供发布所需的步骤。

  1. 完成上述步骤 3 后,在 SalesDataPublishingProject 项目中,在右侧面板中的分析工具下,选择 Amazon Athena。这将打开 Athena 查询编辑器,使用项目的凭证进行身份验证。确保在 Amazon 环境下拉列表中选择了您的发布 DataZone 环境,并按照查询编辑器中的方式选择了<environment_name>%_pub_db数据库。

  2. 在本演练中,您将使用 “按选择创建表” (CTAS) 查询脚本来创建要发布到 Amazon 的新表。 DataZone在查询编辑器中,执行此 CTAS 脚本来创建一个可发布并可供搜索和订阅的 mkt_sls_table 表。

    CREATE TABLE mkt_sls_table AS SELECT 146776932 AS ord_num, 23 AS sales_qty_sld, 23.4 AS wholesale_cost, 45.0 as lst_pr, 43.0 as sell_pr, 2.0 as disnt, 12 as ship_mode,13 as warehouse_id, 23 as item_id, 34 as ctlg_page, 232 as ship_cust_id, 4556 as bill_cust_id UNION ALL SELECT 46776931, 24, 24.4, 46, 44, 1, 14, 15, 24, 35, 222, 4551 UNION ALL SELECT 46777394, 42, 43.4, 60, 50, 10, 30, 20, 27, 43, 241, 4565 UNION ALL SELECT 46777831, 33, 40.4, 51, 46, 15, 16, 26, 33, 40, 234, 4563 UNION ALL SELECT 46779160, 29, 26.4, 50, 61, 8, 31, 15, 36, 40, 242, 4562 UNION ALL SELECT 46778595, 43, 28.4, 49, 47, 7, 28, 22, 27, 43, 224, 4555 UNION ALL SELECT 46779482, 34, 33.4, 64, 44, 10, 17, 27, 43, 52, 222, 4556 UNION ALL SELECT 46779650, 39, 37.4, 51, 62, 13, 31, 25, 31, 52, 224, 4551 UNION ALL SELECT 46780524, 33, 40.4, 60, 53, 18, 32, 31, 31, 39, 232, 4563 UNION ALL SELECT 46780634, 39, 35.4, 46, 44, 16, 33, 19, 31, 52, 242, 4557 UNION ALL SELECT 46781887, 24, 30.4, 54, 62, 13, 18, 29, 24, 52, 223, 4561

    确保已在左侧的表和视图部分中成功创建 mkt_sls_table 表。现在,您有了可以发布到 Amazon DataZone 目录中的数据资产。

步骤 5 – 从 AWS Glue 收集元数据

本节介绍为该工作流程从 AWS Glue 收集元数据的步骤。

  1. 完成上述步骤 4 后,在 Amazon DataZone 数据门户中,选择SalesDataPublishingProject项目,然后选择 “数据” 选项卡,然后在左侧面板中选择 “数据源”。

  2. 选择在环境创建过程中创建的来源。

  3. 选择操作下拉菜单旁边的运行,然后选择刷新按钮。数据源运行完成后,资产将添加到 Amazon DataZone 库存中。

步骤 6 – 整理和发布数据资产

此部分介绍在此工作流中整理和发布数据资产的步骤。

  1. 完成上述步骤 5 后,在 Amazon DataZone 数据门户中,选择您在上一步中创建的SalesDataPublishingProject项目,选择 “数据” 选项卡,在左侧面板中选择 “库存数据”,然后找到mkt_sls_table表格。

  2. 打开 mkt_sls_table 资产的详细信息页面以查看自动生成的企业名称。选择自动生成的元数据图标以查看自动生成的资产名称和列名称。您可以分别接受或拒绝每个名称,也可以选择全部接受以应用生成的名称。或者,您也可以将可用的元数据表单添加到资产中,并选择术语表术语来对数据进行分类。

  3. 选择发布资产以发布 mkt_sls_table 资产。

步骤 7 – 创建用于数据分析的项目

此部分介绍创建用于数据分析的项目的步骤。这是此工作流包含的多个数据使用者步骤中的第一个步骤。

  1. 完成上述步骤 6 后,在 Amazon DataZone 数据门户中,从项目下拉菜单中选择创建项目

  2. 创建项目页面上,指定项目名称,例如,您可以为此工作流程命名 MarketingDataAnalysisProject,然后将其余字段保持不变,然后选择创建

步骤 8 – 创建用于数据分析的环境

此部分介绍创建用于数据分析的环境的步骤。

  1. 完成上述步骤 7 后,在 Amazon DataZone 数据门户中,选择MarketingDataAnalysisProject项目,然后选择环境选项卡,然后选择创建环境

  2. 创建环境页面上,指定以下内容,然后选择创建环境

    • 名称 – 指定环境的名称。在本演练中,您可以将它命名为 Default data lake environment

    • 描述 – 指定环境的描述。

    • 环境配置文件-选择内置DataLakeProfile环境配置文件。

    • 在本演练中,将其余字段保持不变。

步骤 9 – 搜索数据目录并订阅数据

此部分介绍搜索数据目录和订阅数据的步骤。

  1. 完成上述步骤 8 后,在亚马逊 DataZone 数据门户中,选择亚马逊 DataZone图标,然后在亚马逊 DataZone 搜索字段中,使用数据门户搜索栏中的关键词(例如 “目录” 或 “销售”)搜索数据资产。

    如有必要,可应用筛选条件或排序,在找到产品销售数据资产后,可选择该资产以打开其详细信息页面。

  2. 目录销售数据资产的详细信息页面上,选择订阅

  3. 在 “订阅” 对话框中,从下拉列表中选择您的MarketingDataAnalysisProject消费者项目,然后指定订阅请求的原因,然后选择 “订阅”。

步骤 10 – 批准订阅请求

此部分介绍批准订阅请求的步骤。

  1. 完成上述步骤 9 后,在 Amazon DataZone 数据门户中,选择用于发布资产的SalesDataPublishingProject项目。

  2. 选择数据选项卡,再选择已发布的数据,然后选择传入的请求

  3. 现在,您可以看到需审批的新请求所在的行。选择查看请求。提供审批的原因,然后选择批准

步骤 11 – 在 Amazon Athena 中构建查询并分析数据

现在,您已成功将资产发布到 Amazon DataZone 目录并订阅了该资产,您可以对其进行分析。

  1. 在亚马逊 DataZone 数据门户中,选择您的MarketingDataAnalysisProject消费者项目,然后从右侧面板的 “分析工具” 下,选择 Amazon Athena 的 “查询数据” 链接。这将打开 Amazon Athena 查询编辑器,使用项目的凭证进行身份验证。从查询编辑器的 Amazon Environment 下拉列表中选择使用MarketingDataAnalysisProject者 DataZone 环境,然后<environment_name>%sub_db从数据库下拉列表中选择您的项目。

  2. 现在,您可以对订阅的表运行查询。您可以从表和视图中选择表,然后选择预览以在编辑器屏幕上显示 select 语句。运行查询以查看结果。