用於監控的 Amazon MSK 指標 CloudWatch - Amazon Managed Streaming for Apache Kafka

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

用於監控的 Amazon MSK 指標 CloudWatch

Amazon 與 Amazon 集MSK成, CloudWatch 因此您可以收集,查看和分析 Amazon MSK 集群的 CloudWatch指標。系統會自動收MSK集您為叢集設定的指標,並以 1 分鐘的間隔推送到 CloudWatch 。您可以將MSK叢集的監督層次設定為下列其中一項:DEFAULTPER_BROKERPER_TOPIC_PER_BROKER、、或PER_TOPIC_PER_PARTITION。下列章節中的表格顯示從每個監控層次開始可用的所有指標。

注意

3.6.0 及更高版本中,某些用於 CloudWatch 監控的 Amazon MSK 指標名稱已變更。使用新名稱來監控這些指標。針對已變更名稱的指標,下表顯示 3.6.0 版本及更高版本中使用的名稱,後方則顯示 2.8.2.tiered 版本中的名稱。

DEFAULT 層級指標是免費的。其他指標的定價請參閱 Amazon 定 CloudWatch價頁面。

DEFAULT 層級監控

下表所述的指標可在 DEFAULT 監控層級取得。他們是免費的。

DEFAULT 監控層級提供的指標
名稱 可見時 維度 描述
ActiveControllerCount 叢集到達ACTIVE狀態之後。 叢集名稱 每個叢集在任何時間應只能有一個控制器,處於作用中狀態。
BurstBalance

叢集到達ACTIVE狀態之後。

叢集名稱,代理程式 ID

叢集中EBS磁碟區的輸入輸出突發積分的剩餘餘額度。用來調查延遲或輸送量降低的情況。

BurstBalance當EBS磁碟區的基準效能高於最大突發效能時,系統不會報告磁碟區。如需詳細資訊,請參閱 I/O 額度和高載效能

BytesInPerSec 建立主題之後。 叢集名稱、代理程式 ID、主題 從用戶端接收的每秒位元組數量。此指標可用於每個代理程式和每個主題。
BytesOutPerSec 建立主題之後。 叢集名稱、代理程式 ID、主題 傳送至用戶端的每秒位元組數量。此指標可用於每個代理程式和每個主題。
ClientConnectionCount 叢集到達ACTIVE狀態之後。 叢集名稱、代理程式 ID、用戶端身分驗證 主動進行身分驗證的用戶端連線數。
ConnectionCount 叢集到達ACTIVE狀態之後。

叢集名稱,代理程式 ID

主動進行身分驗證、未進行身分驗證和代理程式間的連線數。
CPUCreditBalance

叢集到達ACTIVE狀態之後。

叢集名稱,代理程式 ID

經紀人自推出以來累CPU積的獲得積分的數量。獲得額度後,額度會在額度餘額中累積,並在支付額度時,從額度餘額中移出。如果您用完了點數餘CPU額,可能會對叢集的效能產生負面影響。您可以採取措施減少CPU負載。例如,您可以減少用戶端請求數目,或將代理程式類型更新為 M5。

CpuIdle 叢集到達ACTIVE狀態之後。 叢集名稱,代理程式 ID CPU閒置時間的百分比。
CpuIoWait 叢集到達ACTIVE狀態之後。 叢集名稱,代理程式 ID 擱置磁碟作業期間CPU閒置時間的百分比。
CpuSystem 叢集到達ACTIVE狀態之後。 叢集名稱,代理程式 ID 核心空間CPU中的百分比。
CpuUser 叢集到達ACTIVE狀態之後。 叢集名稱,代理程式 ID 使用者空間CPU中的百分比。
GlobalPartitionCount 叢集到達ACTIVE狀態之後。 叢集名稱 叢集中所有主題 (不包括複本) 的分區數目。由於GlobalPartitionCount不包含複本,因此PartitionCount值的總和可能 GlobalPartitionCount 會高於主題的複寫因子大於 1 時。
GlobalTopicCount 叢集到達ACTIVE狀態之後。 叢集名稱 叢集中所有代理程式的主題總數。
EstimatedMaxTimeLag 取用者群組取用一個主題之後。 取用者群組、主題 估計耗盡 MaxOffsetLag 的時間 (秒)。
KafkaAppLogsDiskUsed 叢集到達ACTIVE狀態之後。 叢集名稱,代理程式 ID 用於應用程式記錄檔的磁碟空間百分比。
KafkaDataLogsDiskUsed (Cluster Name, Broker ID 維度) 叢集到達ACTIVE狀態之後。 叢集名稱,代理程式 ID 用於資料日誌的磁碟空間百分比。
KafkaDataLogsDiskUsed (Cluster Name 維度) 叢集到達ACTIVE狀態之後。 叢集名稱 用於資料日誌的磁碟空間百分比。
LeaderCount 叢集到達ACTIVE狀態之後。 叢集名稱,代理程式 ID 每個代理程式的分區領導者總數 (不包括複本)。
MaxOffsetLag 取用者群組取用一個主題之後。 取用者群組、主題 主題中所有分區的最大偏移延遲。
MemoryBuffered 叢集到達ACTIVE狀態之後。 叢集名稱,代理程式 ID 代理程式的緩衝記憶體大小 (以位元組為單位)。
MemoryCached 叢集到達ACTIVE狀態之後。 叢集名稱,代理程式 ID 代理程式的快取記憶體大小 (以位元組為單位)。
MemoryFree 叢集到達ACTIVE狀態之後。 叢集名稱,代理程式 ID 可用且可供代理程式使用的記憶體大小 (以位元組為單位)。
HeapMemoryAfterGC

叢集到達ACTIVE狀態之後。

叢集名稱,代理程式 ID

垃圾回收之後使用中的總堆積記憶體百分比。
MemoryUsed 叢集到達ACTIVE狀態之後。 叢集名稱,代理程式 ID 代理程式使用的記憶體大小 (以位元組為單位)。
MessagesInPerSec 叢集到達ACTIVE狀態之後。 叢集名稱,代理程式 ID 代理程式每秒內送訊息的數量。
NetworkRxDropped 叢集到達ACTIVE狀態之後。 叢集名稱,代理程式 ID 已捨棄接收套件的數目。
NetworkRxErrors 叢集到達ACTIVE狀態之後。 叢集名稱,代理程式 ID 網路接收代理程式的錯誤數目。
NetworkRxPackets 叢集到達ACTIVE狀態之後。 叢集名稱,代理程式 ID 代理程式接收的封包數量。
NetworkTxDropped 叢集到達ACTIVE狀態之後。 叢集名稱,代理程式 ID 已捨棄的傳輸套件數目。
NetworkTxErrors 叢集到達ACTIVE狀態之後。 叢集名稱,代理程式 ID 代理程式的網路傳輸錯誤數目。
NetworkTxPackets 叢集到達ACTIVE狀態之後。 叢集名稱,代理程式 ID 代理程式傳輸的封包數目。
OfflinePartitionsCount 叢集到達ACTIVE狀態之後。 叢集名稱 叢集中離線的磁碟分割區總數。
PartitionCount 叢集到達ACTIVE狀態之後。 叢集名稱,代理程式 ID 每個代理程式的主題分區總數 (包括複本)。
ProduceTotalTimeMsMean 叢集到達ACTIVE狀態之後。 叢集名稱,代理程式 ID 平均產生的時間 (以毫秒為單位)。
RequestBytesMean 叢集到達ACTIVE狀態之後。 叢集名稱,代理程式 ID 代理程式請求位元組的平均數。
RequestTime 套用請求調節之後。 叢集名稱,代理程式 ID 在代理程式網路和 I/O 執行緒間處理請求所花費的平均時間 (毫秒)。
RootDiskUsed 叢集到達ACTIVE狀態之後。 叢集名稱,代理程式 ID 代理程式所使用的根磁碟百分比。
SumOffsetLag 取用者群組取用一個主題之後。 取用者群組、主題 主題中所有分區的彙整偏移延遲。
SwapFree 叢集到達ACTIVE狀態之後。 叢集名稱,代理程式 ID 代理程式可用的交換記憶體大小 (以位元組為單位)。
SwapUsed 叢集到達ACTIVE狀態之後。 叢集名稱,代理程式 ID 代理程式使用中交換記憶體大小 (以位元組為單位)。
TrafficShaping

叢集到達ACTIVE狀態之後。

叢集名稱,代理程式 ID

高層級指標,指出因超過網路配置而成形 (丟棄或排入佇列) 的封包數。PER_ BROKER 量度可提供更精細的詳細資料。

UnderMinIsrPartitionCount 叢集到達ACTIVE狀態之後。 叢集名稱,代理程式 ID 代理下分 minIsr 區的數量。
UnderReplicatedPartitions 叢集到達ACTIVE狀態之後。 叢集名稱,代理程式 ID 代理程式複製不足的分割區數量。
ZooKeeperRequestLatencyMsMean 叢集到達ACTIVE狀態之後。 叢集名稱,代理程式 ID 對於 ZooKeeper基於叢集。來自代理程式之 Apache ZooKeeper 要求的平均延遲 (以毫秒為單位
ZooKeeperSessionState 叢集到達ACTIVE狀態之後。 叢集名稱,代理程式 ID 對於 ZooKeeper基於叢集。經紀人的 ZooKeeper 會話的連接狀態,可能是以下之一CONNECTED:NOT_:'0.0',ASSOCIATING:'0.1',CONNECTING:'0.5',CONNECTEDREADONLY:'0.8',CONNECTED:'1.0',CLOSED:'5.0',AUTH_FAILED:'10.0'。

PER_BROKER 層級監控

將監控層級設定為時 PER_BROKER,除了所有 DEFAULT 層級指標以外,還會取得下列表格描述的指標。您為下列表格中的指標付費,而 DEFAULT 層級指標仍然是免費的。此表格中的指標包含下列維度:Cluster Name (叢集名稱)、Broker ID (代理程式 ID)。

PER_BROKER 監控層級開始可額外使用的指標
名稱 可見時 描述
BwInAllowanceExceeded 叢集到達ACTIVE狀態之後。

因傳入的彙總頻寬超過代理程式的上限而成形的封包數。

BwOutAllowanceExceeded 叢集到達ACTIVE狀態之後。

因傳出的彙總頻寬超過代理程式的上限而成形的封包數。

ConnTrackAllowanceExceeded 叢集到達ACTIVE狀態之後。

因連線追蹤超過代理程式的上限而成形的封包數。連線追蹤與安全群組相關,會追蹤每個建立的連線,以確保傳回封包如預期般交付。

ConnectionCloseRate 叢集到達ACTIVE狀態之後。

每個接聽程式每秒關閉的連線數。此數字會針對每個接聽程式彙總,並針對用戶端接聽程式進行篩選。

ConnectionCreationRate 叢集到達ACTIVE狀態之後。

每一個接聽程式每秒建立的新連線數。此數字會針對每個接聽程式彙總,並針對用戶端接聽程式進行篩選。

CpuCreditUsage 叢集到達ACTIVE狀態之後。

經紀人花費的CPU學分數量。如果您用完了CPU信用餘額,它可能會對您的雜亂表現產生負面影響。您可以採取措施減少CPU負載。例如,您可以減少用戶端請求數目,或將代理程式類型更新為 M5。

FetchConsumerLocalTimeMsMean 有一個生產者/取用者之後。 領導者處理取用者請求的平均時間 (毫秒)。
FetchConsumerRequestQueueTimeMsMean 有一個生產者/取用者之後。 取用者請求在佇列中等待的平均時間 (毫秒)。
FetchConsumerResponseQueueTimeMsMean 有一個生產者/取用者之後。 取用者請求在回應佇列中等待的平均時間 (毫秒)。
FetchConsumerResponseSendTimeMsMean 有一個生產者/取用者之後。 取用者傳送回應的平均時間 (毫秒)。
FetchConsumerTotalTimeMsMean 有一個生產者/取用者之後。 取用者從代理程式擷取資料時花費的平均總時間 (毫秒)。
FetchFollowerLocalTimeMsMean 有一個生產者/取用者之後。 領導者處理追隨者請求的平均時間 (以毫秒為單位)。
FetchFollowerRequestQueueTimeMsMean 有一個生產者/取用者之後。 追隨者請求在請求佇列中等待的平均時間 (以毫秒為單位)。
FetchFollowerResponseQueueTimeMsMean 有一個生產者/取用者之後。 追隨者請求在回應佇列中等待的平均時間 (以毫秒為單位)。
FetchFollowerResponseSendTimeMsMean 有一個生產者/取用者之後。 追隨者傳送回應的平均時間 (以毫秒為單位)。
FetchFollowerTotalTimeMsMean 有一個生產者/取用者之後。 追隨者花費在從代理程式獲取數據的平均總時間 (以毫秒為單位)。
FetchMessageConversionsPerSec 建立主題之後。 代理程式擷取訊息轉換的次數 (以秒為單位)。
FetchThrottleByteRate 套用頻寬調節之後。 每秒調節的位元組數量。
FetchThrottleQueueSize 套用頻寬調節之後。 調節佇列中的訊息數量。
FetchThrottleTime 套用頻寬調節之後。 平均擷取調節時間 (以毫秒為單位)。
IAMNumberOfConnectionRequests 叢集到達ACTIVE狀態之後。 每秒的IAM驗證要求數目。
IAMTooManyConnections 叢集到達ACTIVE狀態之後。 嘗試超過 100 的連線數。0 表示連線數目在限制範圍內。如果 >0,則超過油門限制,您需要減少連接數量。
NetworkProcessorAvgIdlePercent 叢集到達ACTIVE狀態之後。 網路處理器閒置時間的平均百分比。
PpsAllowanceExceeded 叢集到達ACTIVE狀態之後。

因為雙向PPS超過代理人的最大值而形成的封包數。

ProduceLocalTimeMsMean 叢集到達ACTIVE狀態之後。 領導者處理請求的平均時間 (毫秒)。
ProduceMessageConversionsPerSec 建立主題之後。 代理程式產生訊息轉換的次數 (以秒為單位)。
ProduceMessageConversionsTimeMsMean 叢集到達ACTIVE狀態之後。 訊息格式轉換所花費的平均時間 (以毫秒為單位)。
ProduceRequestQueueTimeMsMean 叢集到達ACTIVE狀態之後。 請求訊息在佇列中花費的平均時間 (以毫秒為單位)。
ProduceResponseQueueTimeMsMean 叢集到達ACTIVE狀態之後。 回應訊息在佇列中花費的平均時間 (以毫秒為單位)。
ProduceResponseSendTimeMsMean 叢集到達ACTIVE狀態之後。 傳送回應訊息所花費的平均時間 (以毫秒為單位)。
ProduceThrottleByteRate 套用頻寬調節之後。 每秒調節的位元組數量。
ProduceThrottleQueueSize 套用頻寬調節之後。 調節佇列中的訊息數量。
ProduceThrottleTime 套用頻寬調節之後。 平均產生調節時間 (以毫秒為單位)。
ProduceTotalTimeMsMean 叢集到達ACTIVE狀態之後。 平均產生的時間 (以毫秒為單位)。

RemoteFetchBytesPerSec (RemoteBytesInPerSec in v2.8.2.tiered)

有一個生產者/取用者之後。

為回應取用者擷取而從分層儲存傳輸的位元組總數。此指標包括會產生下游資料傳輸流量的所有主題分區。類別:流量和錯誤率。這是一個 KIP-405 個度量標準。

RemoteCopyBytesPerSec (RemoteBytesOutPerSec in v2.8.2.tiered)

有一個生產者/取用者之後。

傳輸至分層儲存的位元組總數,包括來自日誌區段、索引和其他輔助檔案的資料。此指標包含會產生上游資料傳輸流量的所有主題分區。類別:流量和錯誤率。這是一個 KIP-405 個度量標準。

RemoteLogManagerTasksAvgIdlePercent

叢集到達ACTIVE狀態之後。

遠端日誌管理器閒置的平均時間百分比。遠端日誌管理器會將資料從代理程式傳輸到分層儲存。類別:內部活動。這是一個 KIP-405 個度量標準。
RemoteLogReaderAvgIdlePercent

叢集到達ACTIVE狀態之後。

遠端日誌讀取器閒置的平均時間百分比。遠端日誌讀取器會將資料從遠端儲存傳輸到代理程式,以回應取用者擷取。類別:內部活動。這是一個 KIP-405 個度量標準。
RemoteLogReaderTaskQueueSize

叢集到達ACTIVE狀態之後。

正在等待排程的負責從分層儲存進行讀取的任務數。類別:內部活動。這是一個 KIP-405 個度量標準。
RemoteFetchErrorsPerSec (RemoteReadErrorPerSec in v2.8.2.tiered)

叢集到達ACTIVE狀態之後。

讀取請求之回應的總錯誤率。此類請求是由指定的代理程式傳送至分層儲存以擷取資料,以回應取用者擷取。此指標包含會產生下游資料傳輸流量的所有主題分區。類別:流量和錯誤率。這是一個 KIP-405 個度量標準。
RemoteFetchRequestsPerSec (RemoteReadRequestsPerSec in v2.8.2.tiered)

叢集到達ACTIVE狀態之後。

讀取請求的總數。此類請求是由指定的代理程式傳送至分層儲存以擷取資料,以回應取用者擷取。此指標包括產生下游資料傳輸流量的所有主題分區。類別:流量和錯誤率。這是一個 KIP-405 個度量標準。
RemoteCopyErrorsPerSec (RemoteWriteErrorPerSec in v2.8.2.tiered)

叢集到達ACTIVE狀態之後。

寫入請求之回應的總錯誤率。此類請求是由指定的代理程式傳送至分層儲存以向上游傳輸資料。此指標包括會產生上游資料傳輸流量的所有主題分區。類別:流量和錯誤率。這是一個 KIP-405 個度量標準。
ReplicationBytesInPerSec 建立主題之後。 從其他代理程式接收的每秒位元組數。
ReplicationBytesOutPerSec 建立主題之後。 每秒傳送給其他代理程式的位元組數。
RequestExemptFromThrottleTime 套用請求調節之後。 在代理程式網路和 I/O 執行緒間處理免除調節的請求所花費的平均時間 (毫秒)。
RequestHandlerAvgIdlePercent 叢集到達ACTIVE狀態之後。 請求處理常式執行緒閒置的平均時間百分比。
RequestThrottleQueueSize 套用請求調節之後。 調節佇列中的訊息數量。
RequestThrottleTime 套用請求調節之後。 平均請求調節時間 (以毫秒為單位)。
TcpConnections 叢集到達ACTIVE狀態之後。

顯示已設定SYN旗標的傳入和傳出TCP區段數目。

RemoteCopyLagBytes (TotalTierBytesLag in v2.8.2.tiered) 建立主題之後。 有資格在代理程式上進行分層儲存,但尚未傳輸至分層儲存的資料位元組總數。此指標顯示上游資料傳輸的效率。隨著延遲增加,不會持續存在於分層儲存中的資料量也會增加。類別:存檔延遲。這不是 KIP -405 度量。
TrafficBytes 叢集到達ACTIVE狀態之後。

顯示用戶端 (生產者和取用者) 與代理程式之間的總網路流量 (位元組)。不報告代理程式之間的流量。

VolumeQueueLength 叢集到達ACTIVE狀態之後。

指定期間內等待完成的讀取與寫入操作請求總數。

VolumeReadBytes 叢集到達ACTIVE狀態之後。

指定期間內讀取的位元組數。

VolumeReadOps 叢集到達ACTIVE狀態之後。

指定期間內的讀取操作數。

VolumeTotalReadTime 叢集到達ACTIVE狀態之後。

指定期間內完成之所有讀取操作耗用的總秒數。

VolumeTotalWriteTime 叢集到達ACTIVE狀態之後。

指定期間內完成之所有寫入操作耗用的總秒數。

VolumeWriteBytes 叢集到達ACTIVE狀態之後。

指定期間內寫入的位元組數。

VolumeWriteOps 叢集到達ACTIVE狀態之後。

指定期間內的寫入操作數。

PER_TOPIC_PER_BROKER 層級監控

當您將監督層次設為時PER_TOPIC_PER_BROKER,除了PER_BROKER和DEFAULT層次的所有測量結果外,還會取得下表所述的測量結果。只有 DEFAULT 層級指標是免費的。此表格中的指標包含下列維度:Cluster Name (叢集名稱)、Broker ID (代理程式 ID)、Topic (主題)。

重要

對於使用 Apache Kafka 2.4.1 或更新版本的 Amazon MSK 叢集,下表中的指標只有在第一次變為非零值之後才會顯示。例如,如要查看 BytesInPerSec,一或多個生產者必須先將資料傳送到叢集。

PER_TOPIC_PER_BROKER 監控層級開始可額外使用的指標
名稱 可見時 描述
FetchMessageConversionsPerSec 建立主題之後。 每秒轉換的擷取訊息數量。
MessagesInPerSec 建立主題之後。 每秒接收的訊息數量。
ProduceMessageConversionsPerSec 建立主題之後。 產生訊息的每秒轉換次數。
RemoteFetchBytesPerSec (RemoteBytesInPerSec in v2.8.2.tiered)

建立主題,並且主題生產/取用資料後。

為回應指定主題和代理程式的取用者擷取而從分層儲存傳輸的位元組數。此指標包含對指定代理程式產生下游資料傳輸流量之主題的所有分區。類別:流量和錯誤率。這是一個 KIP-405 個度量標準。

RemoteCopyBytesPerSec (RemoteBytesOutPerSec in v2.8.2.tiered) 建立主題,並且主題生產/取用資料後。

指定主題和代理程式傳輸至分層儲存的位元組數。此指標包括對指定代理程式產生上游資料傳輸流量之主題的所有分區。類別:流量和錯誤率。這是一個 KIP-405 個度量標準。

RemoteFetchErrorsPerSec (RemoteReadErrorPerSec in v2.8.2.tiered) 建立主題,並且主題生產/取用資料後。 讀取請求之回應的錯誤率。此類請求是由指定的代理程式傳送至分層儲存以擷取資料,以回應對特定主題的取用者擷取。此指標包含對指定代理程式產生下游資料傳輸流量之主題的所有分區。類別:流量和錯誤率。這是一個 KIP-405 個度量標準。
RemoteFetchRequestsPerSec (RemoteReadRequestsPerSec in v2.8.2.tiered) 建立主題,並且主題生產/取用資料後。 讀取請求的數量。此類請求是由指定的代理程式傳送至分層儲存以擷取資料,以回應對特定主題的取用者擷取。此指標包含對指定代理程式產生下游資料傳輸流量之主題的所有分區。類別:流量和錯誤率。這是一個 KIP-405 個度量標準。
RemoteCopyErrorsPerSec (RemoteWriteErrorPerSec in v2.8.2.tiered) 建立主題,並且主題生產/取用資料後。 寫入請求之回應的錯誤率。此類請求是由指定的代理程式傳送至分層儲存以向上游傳輸資料。此指標包括對指定代理程式產生上游資料傳輸流量之主題的所有分區。類別:流量和錯誤率。這是一個 KIP-405 個度量標準。

PER_TOPIC_PER_PARTITION 層級監控

當您將監督層次設為時PER_TOPIC_PER_PARTITION,除了、和DEFAULT層次中的所有測量結果外,還會取得下表所述的測量結果。PER_TOPIC_PER_BROKER PER_BROKER只有 DEFAULT 層級指標是免費的。此表格中的指標具有下列維度:取用者群組、主題、分區。

PER_TOPIC_PER_PARTITION 監控層級開始可額外使用的指標
名稱 可見時 描述
EstimatedTimeLag 取用者群組取用一個主題之後。 耗盡分區偏移延遲的估計時間 (秒)。
OffsetLag 取用者群組取用一個主題之後。 分區層級取用者延遲 (偏移量)。