本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
包含 AWS Glue 数据的 Amazon DataZone 快速入门
完成以下快速入门步骤,使用示例 AWS Glue 数据在 Amazon DataZone 中运行完整的数据创建者和数据使用者工作流。
快速入门步骤
步骤 1 – 创建 Amazon DataZone 域和数据门户
此部分介绍为此工作流创建 Amazon DataZone 域和数据门户的步骤。
完成以下过程可创建 Amazon DataZone 域。有关 Amazon DataZone 域的更多信息,请参阅 Amazon DataZone 术语和概念。
-
导航到 Amazon DataZone 控制台(网址为 https://console.aws.amazon.com/datazone
),进行登录,然后选择创建域。 注意
如果您需要在此工作流中使用现有 Amazon DataZone 域,请选择查看域,再选择要使用的域,然后继续执行“步骤 2:创建发布项目”。
-
在创建域页面上,提供以下字段的值:
-
名称 – 指定您的域的名称。在此工作流中,您可以将此域命名为 Marketing。
-
描述 – 指定可选的域描述。
-
数据加密 – 默认情况下,使用 AWS 为您保管的密钥来加密您的数据。在此应用场景中,您可以保留默认的数据加密设置。
有关客户自主管理型密钥的更多信息,请参阅 Amazon 的静态数据加密 DataZone。如果您使用自己的 KMS 密钥进行数据加密,则必须在默认 AmazonDataZoneDomainExecutionRole 中包含以下语句。
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "kms:Decrypt", "kms:GenerateDataKey" ], "Resource": "*" } ] }
-
服务访问权限 – 默认情况下,将已选定的使用默认角色选项保持不变。
注意
如果您在此工作流中使用现有 Amazon DataZone 域,则可以选择使用现有服务角色选项,然后从下拉菜单中选择一个现有角色。
-
在快速设置功能下,选择设置此账户以使用和发布数据。此选项启用数据湖和数据仓库的内置 Amazon DataZone 蓝图,并为该账户配置所需的权限、资源、默认项目以及默认数据湖和数据仓库环境配置文件。有关 Amazon DataZone 蓝图的更多信息,请参阅 Amazon DataZone 术语和概念。
-
将权限详细信息下的其余字段保持不变。
注意
如果您已有 Amazon DataZone 域,则可以选择使用现有服务角色选项,然后从下拉菜单中选择一个现有角色作为 Glue 管理访问角色、Redshift 管理访问角色和预置角色。
-
将标签下的字段保持不变。
-
选择创建域。
-
-
成功创建一个域后,选择此域,然后在此域的摘要页面上记下此域的数据门户 URL。您可以使用该 URL 访问您的 Amazon DataZone 数据门户,以完成此工作流中的其余步骤。您也可以通过选择打开数据门户来导航到数据门户。
注意
在当前版本的 Amazon DataZone 中,一旦创建域,就无法修改为数据门户生成的 URL。
域创建过程可能需要几分钟的时间才能完成。等待域状态变为可用,然后再继续执行下一步。
步骤 2 – 创建发布项目
此部分介绍为此工作流创建发布项目所需的步骤。
-
完成上述步骤 1 并创建域后,您将看到欢迎来到 Amazon DataZone!窗口。在此窗口中,选择创建项目。
-
指定项目名称,例如,在此工作流中,将项目命名为 SalesDataPublishingProject,再将其余字段保持不变,然后选择创建。
步骤 3 – 创建环境
此部分介绍为此工作流创建环境所需的步骤。
-
完成上述步骤 2 并创建项目后,您将看到您的项目已准备就绪,可以开始使用了!窗口。在此窗口中,选择创建环境。
-
在创建环境页面上,指定以下内容,然后选择创建环境。
-
为以下字段指定值:
-
名称 – 指定环境的名称。在本演练中,您可以将它命名为
Default data lake environment
。 -
描述 – 指定环境的描述。
-
环境配置文件 – 选择 DataLakeProfile 环境配置文件。这使您能够在此工作流中使用 Amazon DataZone 来处理 Amazon S3、AWS Glue Catalog 和 Amazon Athena 中的数据。
-
在本演练中,将其余字段保持不变。
-
-
选择创建环境。
步骤 4 – 创建数据以供发布
此部分介绍为此工作流创建数据以供发布所需的步骤。
-
完成上述步骤 3 后,在
SalesDataPublishingProject
项目中,在右侧面板中的分析工具下,选择 Amazon Athena。这将打开 Athena 查询编辑器,使用项目的凭证进行身份验证。确保在 Amazon DataZone 环境下拉列表中选择您的发布环境,并像在查询编辑器中一样选择<environment_name>%_pub_db
数据库。 -
在本演练中,您将使用按选定方式创建表(CTAS)查询脚本来创建要发布到 Amazon DataZone 的新表。在查询编辑器中,执行此 CTAS 脚本来创建一个可发布并可供搜索和订阅的
mkt_sls_table
表。CREATE TABLE mkt_sls_table AS SELECT 146776932 AS ord_num, 23 AS sales_qty_sld, 23.4 AS wholesale_cost, 45.0 as lst_pr, 43.0 as sell_pr, 2.0 as disnt, 12 as ship_mode,13 as warehouse_id, 23 as item_id, 34 as ctlg_page, 232 as ship_cust_id, 4556 as bill_cust_id UNION ALL SELECT 46776931, 24, 24.4, 46, 44, 1, 14, 15, 24, 35, 222, 4551 UNION ALL SELECT 46777394, 42, 43.4, 60, 50, 10, 30, 20, 27, 43, 241, 4565 UNION ALL SELECT 46777831, 33, 40.4, 51, 46, 15, 16, 26, 33, 40, 234, 4563 UNION ALL SELECT 46779160, 29, 26.4, 50, 61, 8, 31, 15, 36, 40, 242, 4562 UNION ALL SELECT 46778595, 43, 28.4, 49, 47, 7, 28, 22, 27, 43, 224, 4555 UNION ALL SELECT 46779482, 34, 33.4, 64, 44, 10, 17, 27, 43, 52, 222, 4556 UNION ALL SELECT 46779650, 39, 37.4, 51, 62, 13, 31, 25, 31, 52, 224, 4551 UNION ALL SELECT 46780524, 33, 40.4, 60, 53, 18, 32, 31, 31, 39, 232, 4563 UNION ALL SELECT 46780634, 39, 35.4, 46, 44, 16, 33, 19, 31, 52, 242, 4557 UNION ALL SELECT 46781887, 24, 30.4, 54, 62, 13, 18, 29, 24, 52, 223, 4561
确保已在左侧的表和视图部分中成功创建 mkt_sls_table 表。现在,您已拥有可发布到 Amazon DataZone 目录中的数据资产。
步骤 5 – 从 AWS Glue 收集元数据
此部分介绍为此工作流从 AWS Glue 收集元数据的步骤。
-
完成上述步骤 4 后,在 Amazon DataZone 数据门户中,选择
SalesDataPublishingProject
项目,再选择数据选项卡,然后在左侧面板中选择数据来源。 -
选择在环境创建过程中创建的来源。
-
选择操作下拉菜单旁边的运行,然后选择刷新按钮。数据来源运行完成后,这些资产将添加到 Amazon DataZone 库存中。
步骤 6 – 整理和发布数据资产
此部分介绍在此工作流中整理和发布数据资产的步骤。
-
完成上述步骤 5 后,在 Amazon DataZone 数据门户中,选择您在上一步中创建的
SalesDataPublishingProject
项目,再选择数据选项卡,在左侧面板中选择库存数据,然后找到mkt_sls_table
表。 -
打开
mkt_sls_table
资产的详细信息页面以查看自动生成的企业名称。选择自动生成的元数据图标以查看自动生成的资产名称和列名称。您可以分别接受或拒绝每个名称,也可以选择全部接受以应用生成的名称。或者,您也可以将可用的元数据表单添加到资产中,并选择术语表术语来对数据进行分类。 -
选择发布资产以发布
mkt_sls_table
资产。
步骤 7 – 创建用于数据分析的项目
此部分介绍创建用于数据分析的项目的步骤。这是此工作流包含的多个数据使用者步骤中的第一个步骤。
-
完成上述步骤 6 后,在 Amazon DataZone 数据门户中,从项目下拉菜单中选择创建项目。
-
在创建项目页面上,指定项目名称,例如,在此工作流中,您可以将项目命名为 MarketingDataAnalysisProject,再将其余字段保持不变,然后选择创建。
步骤 8 – 创建用于数据分析的环境
此部分介绍创建用于数据分析的环境的步骤。
-
完成上述步骤 7 后,在 Amazon DataZone 数据门户中,选择
MarketingDataAnalysisProject
项目,再选择环境选项卡,然后选择创建环境。 -
在创建环境页面上,指定以下内容,然后选择创建环境。
-
名称 – 指定环境的名称。在本演练中,您可以将它命名为
Default data lake environment
。 -
描述 – 指定环境的描述。
-
环境配置文件 – 选择内置的 DataLakeProfile 环境配置文件。
-
在本演练中,将其余字段保持不变。
-
步骤 9 – 搜索数据目录并订阅数据
此部分介绍搜索数据目录和订阅数据的步骤。
-
完成上述步骤 8 后,在 Amazon DataZone 数据门户中,选择 Amazon DataZone 图标,然后在 Amazon DataZone 搜索字段中,在数据门户的搜索栏中使用关键字(例如“catalog”或“sales”)搜索数据资产。
如有必要,可应用筛选条件或排序,在找到产品销售数据资产后,可选择该资产以打开其详细信息页面。
-
在目录销售数据资产的详细信息页面上,选择订阅。
-
在订阅对话框中,从下拉列表中选择您的 MarketingDataAnalysisProject 使用者项目,再指定订阅请求的原因,然后选择订阅。
步骤 10 – 批准订阅请求
此部分介绍批准订阅请求的步骤。
-
完成上述步骤 9 后,在 Amazon DataZone 数据门户中,选择用于发布资产的 SalesDataPublishingProject 项目。
-
选择数据选项卡,再选择已发布的数据,然后选择传入的请求。
-
现在,您可以看到需审批的新请求所在的行。选择查看请求。提供审批的原因,然后选择批准。
步骤 11 – 在 Amazon Athena 中构建查询并分析数据
现在您已成功将资产发布到 Amazon DataZone 目录并订阅该资产,可以分析该资产了。
-
在 Amazon DataZone 数据门户中,选择您的 MarketingDataAnalysisProject 使用者项目,然后从右侧面板的分析工具下,选择 Amazon Athena 的查询数据链接。这将打开 Amazon Athena 查询编辑器,使用项目的凭证进行身份验证。从该查询编辑器中的 Amazon DataZone 环境下拉列表中选择 MarketingDataAnalysisProject 使用者环境,然后从数据库下拉列表中选择您项目的
<environment_name>%sub_db
。 -
现在,您可以对订阅的表运行查询。您可以从表和视图中选择表,然后选择预览以在编辑器屏幕上显示 select 语句。运行查询以查看结果。