本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
使用 監控的 Amazon MSK指標 CloudWatch
Amazon 與 Amazon MSK整合 CloudWatch ,以便您可以收集、檢視和分析 CloudWatch Amazon MSK叢集的指標。您為MSK叢集設定的指標會自動收集,並每隔 CloudWatch 1 分鐘推送至 。您可以將MSK叢集的監控層級設定為下列其中一項:DEFAULT
、PER_TOPIC_PER_BROKER
、 PER_BROKER
或 PER_TOPIC_PER_PARTITION
。下列章節中的表格顯示從每個監控層次開始可用的所有指標。
注意
在 3.6.0 版和更新版本中,用於 CloudWatch 監控的一些 Amazon MSK指標名稱已變更。使用新名稱來監控這些指標。針對已變更名稱的指標,下表顯示 3.6.0 版本及更高版本中使用的名稱,後方則顯示 2.8.2.tiered 版本中的名稱。
DEFAULT
層級指標是免費的。其他指標的定價如 Amazon CloudWatch 定價
DEFAULT
層級監控
下表所述的指標可在 DEFAULT
監控層級取得。他們是免費的。
名稱 | 可見時 | 維度 | 描述 |
---|---|---|---|
ActiveControllerCount |
叢集進入 ACTIVE 狀態後。 | 叢集名稱 | 每個叢集在任何時間應只能有一個控制器,處於作用中狀態。 |
BurstBalance |
叢集進入 ACTIVE 狀態後。 |
叢集名稱,代理程式 ID |
叢集中EBS磁碟區的輸入輸出爆量點數餘額。用來調查延遲或輸送量降低的情況。
|
BytesInPerSec |
建立主題之後。 | 叢集名稱、代理程式 ID、主題 | 從用戶端接收的每秒位元組數量。此指標可用於每個代理程式和每個主題。 |
BytesOutPerSec |
建立主題之後。 | 叢集名稱、代理程式 ID、主題 | 傳送至用戶端的每秒位元組數量。此指標可用於每個代理程式和每個主題。 |
ClientConnectionCount |
叢集進入 ACTIVE 狀態後。 | 叢集名稱、代理程式 ID、用戶端身分驗證 | 主動進行身分驗證的用戶端連線數。 |
ConnectionCount |
叢集進入 ACTIVE 狀態後。 |
叢集名稱,代理程式 ID |
主動進行身分驗證、未進行身分驗證和代理程式間的連線數。 |
CPUCreditBalance
|
叢集進入 ACTIVE 狀態後。 |
叢集名稱,代理程式 ID |
代理程式自啟動以來累積的CPU點數。獲得額度後,額度會在額度餘額中累積,並在支付額度時,從額度餘額中移出。如果您用完CPU額度餘額,可能會對叢集的效能產生負面影響。您可以採取步驟來減少CPU負載。例如,您可以減少用戶端請求數目,或將代理程式類型更新為 M5。 |
CpuIdle |
叢集進入 ACTIVE 狀態後。 | 叢集名稱,代理程式 ID | CPU 閒置時間的百分比。 |
CpuIoWait |
叢集進入 ACTIVE 狀態後。 | 叢集名稱,代理程式 ID | 待定磁碟操作期間的CPU閒置時間百分比。 |
CpuSystem |
叢集進入 ACTIVE 狀態後。 | 叢集名稱,代理程式 ID | 核心空間CPU中 的百分比。 |
CpuUser |
叢集進入 ACTIVE 狀態後。 | 叢集名稱,代理程式 ID | 使用者空間CPU中的 百分比。 |
GlobalPartitionCount |
叢集進入 ACTIVE 狀態後。 | 叢集名稱 | 叢集中所有主題 (不包括複本) 的分區數目。由於 GlobalPartitionCount 不包含複本, GlobalPartitionCount 因此PartitionCount 值的總和可能高於主題的複寫因數大於 1。 |
GlobalTopicCount |
叢集進入 ACTIVE 狀態後。 | 叢集名稱 | 叢集中所有代理程式的主題總數。 |
EstimatedMaxTimeLag |
取用者群組取用一個主題之後。 | 取用者群組、主題 | 估計耗盡 MaxOffsetLag 的時間 (秒)。 |
KafkaAppLogsDiskUsed |
叢集進入 ACTIVE 狀態後。 | 叢集名稱,代理程式 ID | 用於應用程式記錄檔的磁碟空間百分比。 |
KafkaDataLogsDiskUsed (Cluster Name, Broker
ID 維度) |
叢集進入 ACTIVE 狀態後。 | 叢集名稱,代理程式 ID | 用於資料日誌的磁碟空間百分比。 |
KafkaDataLogsDiskUsed (Cluster Name 維度) |
叢集進入 ACTIVE 狀態後。 | 叢集名稱 | 用於資料日誌的磁碟空間百分比。 |
LeaderCount |
叢集進入 ACTIVE 狀態後。 | 叢集名稱,代理程式 ID | 每個代理程式的分區領導者總數 (不包括複本)。 |
MaxOffsetLag |
取用者群組取用一個主題之後。 | 取用者群組、主題 | 主題中所有分區的最大偏移延遲。 |
MemoryBuffered |
叢集進入 ACTIVE 狀態後。 | 叢集名稱,代理程式 ID | 代理程式的緩衝記憶體大小 (以位元組為單位)。 |
MemoryCached |
叢集進入 ACTIVE 狀態後。 | 叢集名稱,代理程式 ID | 代理程式的快取記憶體大小 (以位元組為單位)。 |
MemoryFree |
叢集進入 ACTIVE 狀態後。 | 叢集名稱,代理程式 ID | 可用且可供代理程式使用的記憶體大小 (以位元組為單位)。 |
HeapMemoryAfterGC
|
叢集進入 ACTIVE 狀態後。 |
叢集名稱,代理程式 ID |
垃圾回收之後使用中的總堆積記憶體百分比。 |
MemoryUsed |
叢集進入 ACTIVE 狀態後。 | 叢集名稱,代理程式 ID | 代理程式使用的記憶體大小 (以位元組為單位)。 |
MessagesInPerSec |
叢集進入 ACTIVE 狀態後。 | 叢集名稱,代理程式 ID | 代理程式每秒內送訊息的數量。 |
NetworkRxDropped |
叢集進入 ACTIVE 狀態後。 | 叢集名稱,代理程式 ID | 已捨棄接收套件的數目。 |
NetworkRxErrors |
叢集進入 ACTIVE 狀態後。 | 叢集名稱,代理程式 ID | 網路接收代理程式的錯誤數目。 |
NetworkRxPackets |
叢集進入 ACTIVE 狀態後。 | 叢集名稱,代理程式 ID | 代理程式接收的封包數量。 |
NetworkTxDropped |
叢集進入 ACTIVE 狀態後。 | 叢集名稱,代理程式 ID | 已捨棄的傳輸套件數目。 |
NetworkTxErrors |
叢集進入 ACTIVE 狀態後。 | 叢集名稱,代理程式 ID | 代理程式的網路傳輸錯誤數目。 |
NetworkTxPackets |
叢集進入 ACTIVE 狀態後。 | 叢集名稱,代理程式 ID | 代理程式傳輸的封包數目。 |
OfflinePartitionsCount |
叢集進入 ACTIVE 狀態後。 | 叢集名稱 | 叢集中離線的磁碟分割區總數。 |
PartitionCount |
叢集進入 ACTIVE 狀態後。 | 叢集名稱,代理程式 ID | 每個代理程式的主題分區總數 (包括複本)。 |
ProduceTotalTimeMsMean |
叢集進入 ACTIVE 狀態後。 | 叢集名稱,代理程式 ID | 平均產生的時間 (以毫秒為單位)。 |
RequestBytesMean |
叢集進入 ACTIVE 狀態後。 | 叢集名稱,代理程式 ID | 代理程式請求位元組的平均數。 |
RequestTime |
套用請求調節之後。 | 叢集名稱,代理程式 ID | 在代理程式網路和 I/O 執行緒間處理請求所花費的平均時間 (毫秒)。 |
RootDiskUsed |
叢集進入 ACTIVE 狀態後。 | 叢集名稱,代理程式 ID | 代理程式所使用的根磁碟百分比。 |
SumOffsetLag |
取用者群組取用一個主題之後。 | 取用者群組、主題 | 主題中所有分區的彙整偏移延遲。 |
SwapFree |
叢集進入 ACTIVE 狀態後。 | 叢集名稱,代理程式 ID | 代理程式可用的交換記憶體大小 (以位元組為單位)。 |
SwapUsed
|
叢集進入 ACTIVE 狀態後。 | 叢集名稱,代理程式 ID | 代理程式使用中交換記憶體大小 (以位元組為單位)。 |
TrafficShaping
|
叢集進入 ACTIVE 狀態後。 |
叢集名稱,代理程式 ID |
高層級指標,指出因超過網路配置而成形 (丟棄或排入佇列) 的封包數。更精細的詳細資訊可用於 PER_BROKER 指標。 |
UnderMinIsrPartitionCount |
叢集進入 ACTIVE 狀態後。 | 叢集名稱,代理程式 ID | 代理程式 minIsr 分割區下的 數目。 |
UnderReplicatedPartitions |
叢集進入 ACTIVE 狀態後。 | 叢集名稱,代理程式 ID | 代理程式複製不足的分割區數量。 |
ZooKeeperRequestLatencyMsMean
|
叢集進入 ACTIVE 狀態後。 | 叢集名稱,代理程式 ID | 對於 ZooKeeper型叢集。Apache 代理程式 ZooKeeper 請求的平均延遲,以毫秒為單位。 |
ZooKeeperSessionState |
叢集進入 ACTIVE 狀態後。 | 叢集名稱,代理程式 ID | 對於 ZooKeeper型叢集。代理程式 ZooKeeper 工作階段的連線狀態,可以是下列其中一項:NOT_CONNECTED:'0.0'、ASSOCIATING:'0.1'、CONNECTING:'0.5'、CONNECTEDREADONLY:'0.8'、CONNECTED:'1.0'、CLOSED:'5.0'、AUTH_FAILED:'10.0'。 |
PER_BROKER
層級監控
將監控層級設定為時 PER_BROKER
,除了所有 DEFAULT
層級指標以外,還會取得下列表格描述的指標。您為下列表格中的指標付費,而 DEFAULT
層級指標仍然是免費的。此表格中的指標包含下列維度:Cluster Name (叢集名稱)、Broker ID (代理程式 ID)。
名稱 | 可見時 | 描述 |
---|---|---|
BwInAllowanceExceeded |
叢集進入 ACTIVE 狀態後。 |
因傳入的彙總頻寬超過代理程式的上限而成形的封包數。 |
BwOutAllowanceExceeded |
叢集進入 ACTIVE 狀態後。 |
因傳出的彙總頻寬超過代理程式的上限而成形的封包數。 |
ConnTrackAllowanceExceeded
|
叢集進入 ACTIVE 狀態後。 |
因連線追蹤超過代理程式的上限而成形的封包數。連線追蹤與安全群組相關,會追蹤每個建立的連線,以確保傳回封包如預期般交付。 |
ConnectionCloseRate |
叢集進入 ACTIVE 狀態後。 |
每個接聽程式每秒關閉的連線數。此數字會針對每個接聽程式彙總,並針對用戶端接聽程式進行篩選。 |
ConnectionCreationRate |
叢集進入 ACTIVE 狀態後。 |
每一個接聽程式每秒建立的新連線數。此數字會針對每個接聽程式彙總,並針對用戶端接聽程式進行篩選。 |
CpuCreditUsage |
叢集進入 ACTIVE 狀態後。 |
代理程式花費的CPU點數。如果您用完CPU額度餘額,可能會對叢集的效能產生負面影響。您可以採取步驟來減少CPU負載。例如,您可以減少用戶端請求數目,或將代理程式類型更新為 M5。 |
FetchConsumerLocalTimeMsMean |
有一個生產者/取用者之後。 | 領導者處理取用者請求的平均時間 (毫秒)。 |
FetchConsumerRequestQueueTimeMsMean |
有一個生產者/取用者之後。 | 取用者請求在佇列中等待的平均時間 (毫秒)。 |
FetchConsumerResponseQueueTimeMsMean |
有一個生產者/取用者之後。 | 取用者請求在回應佇列中等待的平均時間 (毫秒)。 |
FetchConsumerResponseSendTimeMsMean |
有一個生產者/取用者之後。 | 取用者傳送回應的平均時間 (毫秒)。 |
FetchConsumerTotalTimeMsMean |
有一個生產者/取用者之後。 | 取用者從代理程式擷取資料時花費的平均總時間 (毫秒)。 |
FetchFollowerLocalTimeMsMean |
有一個生產者/取用者之後。 | 領導者處理追隨者請求的平均時間 (以毫秒為單位)。 |
FetchFollowerRequestQueueTimeMsMean |
有一個生產者/取用者之後。 | 追隨者請求在請求佇列中等待的平均時間 (以毫秒為單位)。 |
FetchFollowerResponseQueueTimeMsMean |
有一個生產者/取用者之後。 | 追隨者請求在回應佇列中等待的平均時間 (以毫秒為單位)。 |
FetchFollowerResponseSendTimeMsMean |
有一個生產者/取用者之後。 | 追隨者傳送回應的平均時間 (以毫秒為單位)。 |
FetchFollowerTotalTimeMsMean |
有一個生產者/取用者之後。 | 追隨者花費在從代理程式獲取數據的平均總時間 (以毫秒為單位)。 |
FetchMessageConversionsPerSec |
建立主題之後。 | 代理程式擷取訊息轉換的次數 (以秒為單位)。 |
FetchThrottleByteRate |
套用頻寬調節之後。 | 每秒調節的位元組數量。 |
FetchThrottleQueueSize |
套用頻寬調節之後。 | 調節佇列中的訊息數量。 |
FetchThrottleTime |
套用頻寬調節之後。 | 平均擷取調節時間 (以毫秒為單位)。 |
IAMNumberOfConnectionRequests |
叢集進入 ACTIVE 狀態後。 | 每秒的IAM身分驗證請求數。 |
IAMTooManyConnections |
叢集進入 ACTIVE 狀態後。 | 嘗試的連線數目超過 100。0 表示連線數目在限制範圍內。如果 >0,則會超過限流限制,您需要減少連線數量。 |
NetworkProcessorAvgIdlePercent |
叢集進入 ACTIVE 狀態後。 | 網路處理器閒置時間的平均百分比。 |
PpsAllowanceExceeded |
叢集進入 ACTIVE 狀態後。 |
因為雙向PPS超過代理程式上限而形成的封包數目。 |
ProduceLocalTimeMsMean |
叢集進入 ACTIVE 狀態後。 | 領導者處理請求的平均時間 (毫秒)。 |
ProduceMessageConversionsPerSec |
建立主題之後。 | 代理程式產生訊息轉換的次數 (以秒為單位)。 |
ProduceMessageConversionsTimeMsMean |
叢集進入 ACTIVE 狀態後。 | 訊息格式轉換所花費的平均時間 (以毫秒為單位)。 |
ProduceRequestQueueTimeMsMean |
叢集進入 ACTIVE 狀態後。 | 請求訊息在佇列中花費的平均時間 (以毫秒為單位)。 |
ProduceResponseQueueTimeMsMean |
叢集進入 ACTIVE 狀態後。 | 回應訊息在佇列中花費的平均時間 (以毫秒為單位)。 |
ProduceResponseSendTimeMsMean |
叢集進入 ACTIVE 狀態後。 | 傳送回應訊息所花費的平均時間 (以毫秒為單位)。 |
ProduceThrottleByteRate |
套用頻寬調節之後。 | 每秒調節的位元組數量。 |
ProduceThrottleQueueSize |
套用頻寬調節之後。 | 調節佇列中的訊息數量。 |
ProduceThrottleTime |
套用頻寬調節之後。 | 平均產生調節時間 (以毫秒為單位)。 |
ProduceTotalTimeMsMean |
叢集進入 ACTIVE 狀態後。 | 平均產生的時間 (以毫秒為單位)。 |
|
有一個生產者/取用者之後。 |
為回應取用者擷取而從分層儲存傳輸的位元組總數。此指標包括會產生下游資料傳輸流量的所有主題分區。類別:流量和錯誤率。這是 KIP-405 |
RemoteCopyBytesPerSec (RemoteBytesOutPerSec in v2.8.2.tiered) |
有一個生產者/取用者之後。 |
傳輸至分層儲存的位元組總數,包括來自日誌區段、索引和其他輔助檔案的資料。此指標包含會產生上游資料傳輸流量的所有主題分區。類別:流量和錯誤率。這是 KIP-405 |
RemoteLogManagerTasksAvgIdlePercent |
叢集進入 ACTIVE 狀態後。 |
遠端日誌管理器閒置的平均時間百分比。遠端日誌管理器會將資料從代理程式傳輸到分層儲存。類別:內部活動。這是 KIP-405 |
RemoteLogReaderAvgIdlePercent |
叢集進入 ACTIVE 狀態後。 |
遠端日誌讀取器閒置的平均時間百分比。遠端日誌讀取器會將資料從遠端儲存傳輸到代理程式,以回應取用者擷取。類別:內部活動。這是 KIP-405 |
RemoteLogReaderTaskQueueSize |
叢集進入 ACTIVE 狀態後。 |
正在等待排程的負責從分層儲存進行讀取的任務數。類別:內部活動。這是 KIP-405 |
RemoteFetchErrorsPerSec (RemoteReadErrorPerSec in v2.8.2.tiered) |
叢集進入 ACTIVE 狀態後。 |
讀取請求之回應的總錯誤率。此類請求是由指定的代理程式傳送至分層儲存以擷取資料,以回應取用者擷取。此指標包含會產生下游資料傳輸流量的所有主題分區。類別:流量和錯誤率。這是 KIP-405 |
RemoteFetchRequestsPerSec (RemoteReadRequestsPerSec in v2.8.2.tiered) |
叢集進入 ACTIVE 狀態後。 |
讀取請求的總數。此類請求是由指定的代理程式傳送至分層儲存以擷取資料,以回應取用者擷取。此指標包括產生下游資料傳輸流量的所有主題分區。類別:流量和錯誤率。這是 KIP-405 |
RemoteCopyErrorsPerSec (RemoteWriteErrorPerSec in v2.8.2.tiered) |
叢集進入 ACTIVE 狀態後。 |
寫入請求之回應的總錯誤率。此類請求是由指定的代理程式傳送至分層儲存以向上游傳輸資料。此指標包括會產生上游資料傳輸流量的所有主題分區。類別:流量和錯誤率。這是 KIP-405 |
ReplicationBytesInPerSec |
建立主題之後。 | 從其他代理程式接收的每秒位元組數。 |
ReplicationBytesOutPerSec |
建立主題之後。 | 每秒傳送給其他代理程式的位元組數。 |
RequestExemptFromThrottleTime |
套用請求調節之後。 | 在代理程式網路和 I/O 執行緒間處理免除調節的請求所花費的平均時間 (毫秒)。 |
RequestHandlerAvgIdlePercent |
叢集進入 ACTIVE 狀態後。 | 請求處理常式執行緒閒置的平均時間百分比。 |
RequestThrottleQueueSize |
套用請求調節之後。 | 調節佇列中的訊息數量。 |
RequestThrottleTime |
套用請求調節之後。 | 平均請求調節時間 (以毫秒為單位)。 |
TcpConnections |
叢集進入 ACTIVE 狀態後。 |
顯示已設定SYN旗標的傳入和傳出TCP客群數量。 |
RemoteCopyLagBytes (TotalTierBytesLag in v2.8.2.tiered) |
建立主題之後。 | 有資格在代理程式上進行分層儲存,但尚未傳輸至分層儲存的資料位元組總數。此指標顯示上游資料傳輸的效率。隨著延遲增加,不會持續存在於分層儲存中的資料量也會增加。類別:存檔延遲。這不是 KIP-405 指標。 |
TrafficBytes |
叢集進入 ACTIVE 狀態後。 |
顯示用戶端 (生產者和取用者) 與代理程式之間的總網路流量 (位元組)。不報告代理程式之間的流量。 |
VolumeQueueLength |
叢集進入 ACTIVE 狀態後。 |
指定期間內等待完成的讀取與寫入操作請求總數。 |
VolumeReadBytes
|
叢集進入 ACTIVE 狀態後。 |
指定期間內讀取的位元組數。 |
VolumeReadOps
|
叢集進入 ACTIVE 狀態後。 |
指定期間內的讀取操作數。 |
VolumeTotalReadTime
|
叢集進入 ACTIVE 狀態後。 |
指定期間內完成之所有讀取操作耗用的總秒數。 |
VolumeTotalWriteTime
|
叢集進入 ACTIVE 狀態後。 |
指定期間內完成之所有寫入操作耗用的總秒數。 |
VolumeWriteBytes
|
叢集進入 ACTIVE 狀態後。 |
指定期間內寫入的位元組數。 |
VolumeWriteOps
|
叢集進入 ACTIVE 狀態後。 |
指定期間內的寫入操作數。 |
PER_TOPIC_PER_BROKER
層級監控
當您將監控層級設定為 時PER_TOPIC_PER_BROKER
,除了從 PER_BROKER
和 DEFAULT層級取得所有指標之外,還會取得下表所述的指標。只有 DEFAULT
層級指標是免費的。此表格中的指標包含下列維度:Cluster Name (叢集名稱)、Broker ID (代理程式 ID)、Topic (主題)。
重要
對於使用 Apache Kafka 2.4.1 或更新版本的 Amazon MSK叢集,下表中的指標只會在其值首次變成非零值後出現。例如,如要查看 BytesInPerSec
,一或多個生產者必須先將資料傳送到叢集。
名稱 | 可見時 | 描述 |
---|---|---|
FetchMessageConversionsPerSec |
建立主題之後。 | 每秒轉換的擷取訊息數量。 |
MessagesInPerSec |
建立主題之後。 | 每秒接收的訊息數量。 |
ProduceMessageConversionsPerSec |
建立主題之後。 | 產生訊息的每秒轉換次數。 |
RemoteFetchBytesPerSec (RemoteBytesInPerSec in v2.8.2.tiered) |
建立主題,並且主題生產/取用資料後。 |
為回應指定主題和代理程式的取用者擷取而從分層儲存傳輸的位元組數。此指標包含對指定代理程式產生下游資料傳輸流量之主題的所有分區。類別:流量和錯誤率。這是 KIP-405 |
RemoteCopyBytesPerSec (RemoteBytesOutPerSec in v2.8.2.tiered) |
建立主題,並且主題生產/取用資料後。 |
指定主題和代理程式傳輸至分層儲存的位元組數。此指標包括對指定代理程式產生上游資料傳輸流量之主題的所有分區。類別:流量和錯誤率。這是 KIP-405 |
RemoteFetchErrorsPerSec (RemoteReadErrorPerSec in v2.8.2.tiered) |
建立主題,並且主題生產/取用資料後。 | 讀取請求之回應的錯誤率。此類請求是由指定的代理程式傳送至分層儲存以擷取資料,以回應對特定主題的取用者擷取。此指標包含對指定代理程式產生下游資料傳輸流量之主題的所有分區。類別:流量和錯誤率。這是 KIP-405 |
RemoteFetchRequestsPerSec (RemoteReadRequestsPerSec in v2.8.2.tiered) |
建立主題,並且主題生產/取用資料後。 | 讀取請求的數量。此類請求是由指定的代理程式傳送至分層儲存以擷取資料,以回應對特定主題的取用者擷取。此指標包含對指定代理程式產生下游資料傳輸流量之主題的所有分區。類別:流量和錯誤率。這是 KIP-405 |
RemoteCopyErrorsPerSec (RemoteWriteErrorPerSec in v2.8.2.tiered) |
建立主題,並且主題生產/取用資料後。 | 寫入請求之回應的錯誤率。此類請求是由指定的代理程式傳送至分層儲存以向上游傳輸資料。此指標包括對指定代理程式產生上游資料傳輸流量之主題的所有分區。類別:流量和錯誤率。這是 KIP-405 |
PER_TOPIC_PER_PARTITION
層級監控
當您將監控層級設定為 時PER_TOPIC_PER_PARTITION
,除了來自 PER_BROKER
、 PER_TOPIC_PER_BROKER
和 DEFAULT層級的所有指標之外,還會取得下表所述的指標。只有 DEFAULT
層級指標是免費的。此表格中的指標具有下列維度:取用者群組、主題、分區。
名稱 | 可見時 | 描述 |
---|---|---|
EstimatedTimeLag |
取用者群組取用一個主題之後。 | 耗盡分區偏移延遲的估計時間 (秒)。 |
OffsetLag |
取用者群組取用一個主題之後。 | 分區層級取用者延遲 (偏移量)。 |