监控 MSK Connect - Amazon Managed Streaming for Apache Kafka

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

监控 MSK Connect

监控是维护 MSK Connect 和其他 AWS 解决方案的可靠性、可用性和性能的重要组成部分。Amazon 会实时 CloudWatch 监控您的 AWS 资源和您运行 AWS 的应用程序。您可以收集和跟踪指标,创建自定义的控制平面,以及设置警报以在指定的指标达到您指定的阈值时通知您或采取措施。例如,您可以 CloudWatch 跟踪连接器的 CPU 使用率或其他指标,以便在需要时增加其容量。有关更多信息,请参阅 Amazon CloudWatch 用户指南

您可以使用以下 API 操作:

  • DescribeConnectorOperation:监控连接器更新操作的状态。

  • ListConnectorOperations: 跟踪以前在连接器上运行的更新。

下表显示了 MSK Connect 向该ConnectorName维度 CloudWatch 下发送的指标。默认情况下,MSK Connect 提供这些指标,不收取额外费用。 CloudWatch 将这些指标保留 15 个月,这样您就可以访问历史信息并更好地了解连接器的性能。还可以设置特定阈值监视警报,在达到对应阈值时发送通知或采取行动。有关更多信息,请参阅 Amazon CloudWatch 用户指南

MSK Connect 指标
指标名称 描述
BytesInPerSec 连接器接收的总字节数。
BytesOutPerSec 连接器传送的总字节数。
CpuUtilization 系统和用户的 CPU 消耗百分比。
ErroredTaskCount 已出错的任务数量。
MemoryUtilization 工作程序实例上总内存的百分比,而不仅仅是当前正在使用的 Java 虚拟机(JVM)堆内存。JVM 通常不会将内存释放回操作系统。因此,JVM 堆大小 (MemoryUtilization) 通常从最小堆大小开始,该堆大小逐渐增加到稳定的最大值,约为 80-90%。随着连接器实际内存使用量的变化,JVM 堆使用量可能会增加或减少。
RebalanceCompletedTotal 此连接器完成的重新平衡总数。
RebalanceTimeAvg 连接器在重新平衡上花费的平均时间(以毫秒为单位)。
RebalanceTimeMax 连接器在重新平衡上花费的最长时间(以毫秒为单位)。
RebalanceTimeSinceLast

自此连接器完成最近一次重新平衡以来的时间(以毫秒为单位)。

RunningTaskCount 连接器中正在运行的任务数量。
SinkRecordReadRate 平均每秒从 Apache Kafka 或 Amazon MSK 集群读取的记录数量。
SinkRecordSendRate 平均每秒从转换中输出并发送到目标的记录数量。此数量不包含筛选后的记录。
SourceRecordPollRate 平均每秒生成或轮询的记录数量。
SourceRecordWriteRate 平均每秒从转换中输出并写入 Apache Kafka 或 Amazon MSK 集群的记录数量。
TaskStartupAttemptsTotal 连接器已尝试的任务启动总数。您可以使用此指标来识别任务启动尝试中的异常情况。
TaskStartupSuccessPercentage 连接器成功启动任务的平均百分比。您可以使用此指标来识别任务启动尝试中的异常情况。
WorkerCount 在连接器中运行的工作程序数量。