View a markdown version of this page

与 Aurora PostgreSQL 兼容 AWS Glue - AWS 规范性指导

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

与 Aurora PostgreSQL 兼容 AWS Glue

AWS Glue 是一项完全托管的提取、转换和加载 (ETL) 服务,用于准备和加载数据以供分析。您可以 AWS Glue 与兼容 Amazon Aurora PostgreSQL 的版本集成,以实现任何数据处理和分析工作流程。

AWS Glue 用例和高级步骤

与 Aurora PostgreSQL 兼容的集成 AWS Glue 支持以下用例:

  • 数据仓库和分析-使用与兼容 Aurora PostgreSQL 的 AWS Glue 集成来构建数据仓库和分析解决方案。 AWS Glue 可以从兼容 Aurora PostgreSQL 的数据库中提取数据,然后根据您的要求进行转换。然后 AWS Glue 可以将转换后的数据加载到数据仓库中,例如 Amazon Redshift 或 Amazon Athena,以进行高级分析和报告。

  • 创建数据湖-用于 AWS Glue 从兼容 Aurora PostgreSQL 的数据中提取数据,然后将其加载到存储在 Amazon S3 中的数据湖中。然后,您可以将此数据湖用于各种用途,例如机器学习、数据探索或为其他分析系统提供数据。

  • ETL 管道 − 使用 AWS Glue 无服务器 ETL 服务构建强大的数据管道。你可以从兼容 Aurora PostgreSQL 的版本中提取数据,然后使用 Apache Spark 或执行复杂的转换。 PySpark您可以将处理后的数据加载到目标,例如亚马逊 S3 或 Amazon Redshift,也可以将其加载回兼容 Aurora PostgreSQL 的环境中。

  • 数据编目和元数据管理-用于 AWS Glue Data Catalog 自动抓取兼容 Aurora PostgreSQL 的数据库和表中的元数据并对其进行编目。 AWS 服务 例如 Amazon Athena 和 Amazon Redshift Spectrum,可以使用这个集中式元数据存储库来查询和分析数据。

  • 机器学习@@ 的数据准备-用于为机器学习 (ML) 工作负载准备兼容 Aurora PostgreSQL 的数据。 AWS Glue 处理后的数据可以加载到 Amazon SageMaker AI 或其他机器学习服务中,用于训练和部署模型。

  • 数据迁移和复制 − 虽然 AWS Database Migration Service (AWS DMS) 是数据库迁移的主要服务,但您也可以使用 AWS Glue。将数据从兼容 Aurora PostgreSQL 的数据迁移或复制到其他数据存储,例如亚马逊 S3、Amazon Redshift 甚至其他数据库引擎。

您的组织可以将 AWS 数据集成和分析服务的强大功能与兼容 Aurora PostgreSQL 的扩展性、性能和兼容性结合使用。通过这些用例,您可以构建强大的数据管道,执行复杂的数据转换,并与其他用例集成 AWS 服务 以进行高级分析和报告。

要将与 Aurora PostgreSQL 兼容集成 AWS Glue,请使用以下高级步骤:

  1. 登录 AWS 管理控制台,导航到 AWS Glue 控制台,然后创建 AWS Glue Data Catalog。

    数据目录是一个中央存储库,用于存储有关数据源的元数据,包括与 Aurora PostgreSQL 兼容的数据库和表。

  2. 创建 AWS Glue 连接。

    导航到 “连接” 页面,然后创建 AWS Glue 连接。选择兼容 Aurora PostgreSQL 作为连接类型,并提供兼容 Aurora PostgreSQL 的集群终端节点、数据库名称以及您的数据库用户名和密码。

  3. 抓取与 Aurora PostgreSQL 兼容的数据源。

    导航至 Crawlers 部分,然后创建配置为使用您创建的连接的 Crawler。指定要搜索并包含在数据目录中的数据库和表名,然后运行爬网程序。

  4. 创建并运行 AWS Glue ETL 作业。

    导航到 “作业” 部分,然后创建一个 ETL 作业,以便使用数据目录访问和查询 Aurora PostgreSQL 兼容数据库中的数据。根据您的要求选择工作类型。在 ETL 作业脚本中,执行任何必要的转换或处理,并为已处理的数据指定目标位置。目标位置可以是亚马逊 S3、亚马逊 Redshift 或其他兼容 Aurora PostgreSQL 的数据库。

有关详细说明,请参阅AWS Glue 文档