常见集成任务 - AWS Glue

常见集成任务

创建集成

本节介绍创建集成的一般步骤。此示例使用 Amazon DynamoDB 作为来源。

  1. 在 AWS Glue 控制台主页上,选择零 ETL 集成

  2. 您可以在零 ETL 集成主页上查看所有集成。要创建新的集成,请选择创建零 ETL 集成

    屏幕截图显示主零 ETL 集成页面。
  3. 系统会提示您选择一种源类型。选择您的源,然后单击下一步。请参阅 SaaS 集成源的源配置部分。

  4. 配置源和目标页中,选择要复制的表或实体。对于 Amazon DynamoDB,确保已配置 PITR 和 RBAC 策略。

  5. 指定您的集成目标:

    • 对于 AWS Glue Data Catalog 目标,选择要将数据复制到的 AWS Glue 数据库。

    • 对于 Amazon Redshift 数据仓库目标,选择 Redshift 集群命名空间或 Redshift Serverless 工作组命名空间。

    有关更多信息,请参阅 配置与目标的集成

  6. 提供您在先决条件中创建的目标 IAM 角色

  7. 如果您想要为存储在目标中的数据配置可选的目标 KMS 密钥,请提供已启用的 KMS 密钥。同样,如果想要配置目标网络连接,请选择一个 AWS Glue 连接。

  8. 修复目标按钮配置本文档的“先决条件”部分中的一些步骤。也就是说,它将 1) 提供目录 RBAC 策略;2) 如果未提供 Amazon S3 URI,它将为您生成一个,否则将使用提供的 URI。

  9. 对于与 Redshift 数据仓库目标的集成:

  10. 配置源和目标页面的输出设置部分中,为目标中的数据选择所需的架构取消嵌套选项。如果您想要对数据使用客户分区键,请选择指定自定义分区键并提供最多 10 个键。否则,您可以简单地使用分配给正在复制的 DynamoDB 表的分区键。

  11. 安全和数据加密部分,您可以提供一个在将您的数据复制到目标过程中使用的 KMS 密钥。否则,将使用 AWS 托管 KMS 密钥。目前,我们仅支持 15 分钟的复制设置。在集成详细信息中输入零 ETL 集成的名称。

  12. 检查并确保提供的所有详细信息均正确。确认一切内容后,单击创建并启动集成

  13. 在零 ETL 主页中,您可以选择您创建的集成,然后将显示您的集成的详细信息。“状态”指示您的集成的状态。

修改集成

您可以修改现有的集成。

  1. 选择集成详细信息页面右上角的编辑

  2. 编辑源和目标页面上,您可以更改目标 IAM 角色和目标网络连接。集成创建后,其他字段不可编辑。单击下一步

  3. 您也可以在编辑集成和配置页面中编辑集成的名称和描述。单击下一步

  4. 检查您所做的编辑并确认后,请单击更新集成

删除集成

删除是集成的最终状态。一旦删除,集成将无法恢复。删除集成会清除所有内部元数据和任何中间存储的数据。

在此过程中,任何正在将数据写入目标表的正在运行的任务都将终止。AWS Glue 不会删除或清除目标 AWS Glue 数据库(在 Data Catalog 中)以及您账户中的 Amazon S3 存储桶中的关联数据。如果需要,您需要明确清除它们。

要删除集成,请执行下面的操作:

  1. 在集成详细信息页中,单击删除

  2. 输入“删除”,然后单击删除。注意:此操作不可逆。

  3. 在集成详细信息页中,状态显示“正在删除”。当集成实际删除后,它将不再出现在零 ETL 集成主页上。