在 AWS Glue Studio 中使用自定义连接器和连接 - AWS Glue

在 AWS Glue Studio 中使用自定义连接器和连接

AWS Glue 使用 JDBC 连接为常用数据存储(例如 Amazon Redshift、Amazon Aurora、Microsoft SQL Server、MySQL、MongoDB 和 PostgreSQL)提供内置支持。AWS Glue 还允许您在数据提取、转换和加载(ETL)任务中使用自定义 JDBC 驱动程序。对于本地不支持的数据存储(如 SaaS 应用程序),您可以使用连接器。

连接器是一个可选代码包,可帮助访问 AWS Glue Studio 中的数据存储。您可以订阅 AWS Marketplace 中提供的几个连接器。

创建 ETL 任务时,您可以使用本地支持的数据存储、AWS Marketplace 中的连接器或您自己的自定义连接器。如果您使用连接器,您必须首先为连接器创建连接。连接包含连接到特定数据存储所需的属性。您将使用与 ETL 任务中的数据源和数据目标的连接。连接器和连接协同工作,方便访问数据存储。

在创建连接器连接时,可以使用以下连接:

  • Amazon Aurora – 一种具有内置安全性、备份还原以及内存加速功能的可扩展、高性能关系数据库引擎。

  • Amazon DocumentDB – 一种可扩展、高度可用且完全托管式的文档数据库服务,支持 MongoDB 和 SQL API。

  • Amazon Redshift – 一种可扩展、高度可用且完全托管式的文档数据库服务,支持 MongoDB 和 SQL API。

  • Azure SQL – 一种由 Microsoft Azure 提供的基于云的关系数据库服务,具有可扩展、可靠和安全的数据存储和管理功能。

  • Cosmos DB – 一种由 Microsoft Azure 提供的全球分布式云数据库服务,具有可扩展、高性能的数据存储和查询功能。

  • Google BigQuery – 一种无服务器云数据仓库,用于对大型数据集快速运行 SQL 查询。

  • JDBC – 一种关系数据库管理系统(RDBMS),使用 Java API 来连接到数据连接并与之交互。

  • Kafka – 一种用于实时数据流式传输和消息收发的开源流式处理平台。

  • MariaDB – 一种由社区开发的 MySQL 分支,提供增强的性能、可扩展性和功能。

  • MongoDB – 一种面向文档的跨平台数据库,具有高可扩展性、高灵活性、高性能等特点。

  • MongoDB Atlas – 一种由 MongoDB 提供的基于云的数据库即服务(DBaaS)产品,可简化 MongoDB 部署的管理和扩展。

  • Microsoft SQL Server – 一种由微软公司推出的关系数据库管理系统(RDBMS),具有强大的数据存储、分析和报告功能。

  • MySQL – 一种广泛用于 Web 应用程序的开源关系数据库管理系统(RDBMS),并以可靠性和可扩展性闻名。

  • 网络 – 网络数据来源是指数据集成平台可以访问并且可通过网络访问的资源或服务。

  • OpenSearch – OpenSearch 数据来源是指 OpenSearch 可以连接到并从中提取数据的应用程序。

  • Oracle – 一种由甲骨文公司推出的关系数据库管理系统(RDBMS),具有强大的数据存储、分析和报告功能。

  • PostgreSQL – 一种开源关系数据库管理系统(RDBMS),具有强大的数据存储、分析和报告功能。

  • Salesforce – Salesforce 提供客户关系管理(CRM)软件,可在销售、客户服务、电子商务等方面为您提供帮助。如果您是 Salesforce 用户,可以将 AWS Glue 连接到您的 Salesforce 账户。然后,您可以使用 Salesforce 作为 ETL 作业中的数据来源或目标。通过运行这些作业,可在 Salesforce 与 AWS 服务或其他受支持的应用程序之间传输数据。

  • SAP HANA – 一种内存数据库和分析平台,提供快速数据处理、高级分析和实时数据集成等功能。

  • Snowflake – 基于云的数据仓库,提供可扩展、高性能的数据存储和分析服务。

  • Teradata – 一种开源关系数据库管理系统(RDBMS),提供高性能的数据存储、分析和报告功能。

  • Vertica – 一种专门面向大数据分析的列式分析数据仓库,提供快速查询、高级分析和可扩展性等功能。