了解 MSK Connect - Amazon Managed Streaming for Apache Kafka

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

了解 MSK Connect

MSK Connect 是 Amazon MSK 的一项功能,它让开发人员可以轻松地将数据流入和流出其 Apache Kafka 集群。MSK Connect 使用 Kafka Connect 版本 2.7.1 或 3.7.x,这些版本是用于将 Apache Kafka 集群与数据库、搜索索引和文件系统等外部系统连接起来的开源框架。借助 MSK Connect,您可以部署专为 Kafka Connect 构建的完全托管的连接器,用于将数据移入亚马逊 S3 和亚马逊服务等热门数据存储或从中提取数据。 OpenSearch 您可以部署由 Debezium 等第三方开发的连接器,用于将变更日志从数据库流式传输到 Apache Kafka 集群,或者无需更改代码即可部署现有连接器。连接器会自动扩缩以适应负载变化,您只需为使用的资源付费。

使用源连接器将数据从外部系统导入到您的主题中。您可以使用接收器连接器,将主题中的数据导出到外部系统。

MSK Connect 支持任何连接到 Amazon VPC 的 Apache Kafka 集群的连接器,无论是 MSK 集群还是独立托管的 Apache Kafka 集群。

MSK Connect 持续监控连接器的运行状况和交付状态、修补和管理底层硬件,并自动扩缩连接器以适应吞吐量的变化。

要开始使用 MSK Connect,请参阅 开始使用 MSK Connect

要了解您可以使用 MSK Connect 创建的 AWS 资源,请参阅了解连接器创建自定义插件、和。了解 MSK Connect 工作程序

有关 MSK Connect API 的信息,请参阅 Amazon MSK Connect API Reference

使用 Amazon MSK Connect 的好处

Apache Kafka 是用于提取和处理实时数据流的最广泛采用的开源流平台之一。借助 Apache Kafka,您可以分离和独立扩展数据生成和数据消费应用程序。

Kafka Connect 是使用 Apache Kafka 构建和运行流应用程序的重要组成部分。Kafka Connect 提供了一种在 Kafka 和外部系统之间移动数据的标准化方式。Kafka Connect 具有高度可扩展性,可以处理大量数据。Kafka Connect 提供了一组强大的 API 操作和工具,用于配置、部署和监控在 Kafka 主题和外部系统之间移动数据的连接器。您可以使用这些工具来自定义和扩展 Kafka Connect 的功能,以满足您的流应用程序的特定需求。

当您自行操作 Apache Kafka Connect 集群或尝试将开源 Apache Kafka Connect 应用程序迁移到 AWS时,可能会遇到挑战。这些挑战包括设置基础设施和部署应用程序所需的时间、设置自托管 Apache Kafka Connect 集群时的工程障碍以及管理运营开销。

为了应对这些挑战,我们建议使用 Amazon Managed Streaming for Apache Kafka Connect(Amazon MSK Connect)将您的开源 Apache Kafka Connect 应用程序迁移到 AWS。Amazon MSK Connect 简化了使用 Kafka Connect 在 Apache Kafka 集群和外部系统(例如数据库、搜索索引和文件系统)之间传输数据的过程。

以下是迁移到 Amazon MSK Connect 的一些好处:

  • 消除运营开销 — Amazon MSK Connect 消除了与 Apache Kafka Connect 集群的修补、预置和扩展相关的运营负担。Amazon MSK Connect 持续监控您的 Connect 集群的运行状况并自动进行修补和版本升级,而不会对您的工作负载造成任何中断。

  • 自动重启 Connect 任务 — Amazon MSK Connect 可以自动恢复失败的任务以减少生产中断。任务失败可能是由临时错误引起的,例如超出 Kafka 的 TCP 连接限制,以及新工作程序加入接收器连接器的消费者组时的任务重新平衡。

  • 自动水平和垂直扩缩 — Amazon MSK Connect 使连接器应用程序能够自动扩展以支持更高的吞吐量。Amazon MSK Connect 为您管理扩展。您只需指定自动扩缩组中的工作程序数量和利用率阈值。您可以使用 Amazon MSK Connect UpdateConnector API 操作在 1 到 8 v CPUs 之间垂直放大或缩小 v CPUs 以支持可变吞吐量。

  • 私有网络连接 — Amazon MSK Connect 使用私有 DNS 名称私密连接到源系统 AWS PrivateLink 和接收系统。