應監控哪些指標? - Amazon ElastiCache

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

應監控哪些指標?

下列 CloudWatch 指標可提供 ElastiCache 效能的良好洞見。在大多數情況下,我們建議您為這些指標設定 CloudWatch 警示,以便在發生效能問題之前採取修正動作。

CPUUtilization

此為主機層級指標,以百分比報告。如需詳細資訊,請參閱主機層級指標

Valkey 和 Redis OSS

對於 2 vCPUs 或更少的較小節點類型,請使用 CPUUtilization 指標來監控工作負載。

一般而言,我們建議您將閾值設定為可用 的 90%CPU。由於 Valkey 和 Redis OSS都是單執行緒,因此實際閾值應該計算為節點總容量的分數。例如,假設您使用擁有二核心的節點類型。在這種情況下, 的閾值CPUUtilization為 90/2 或 45%。

您將需要根據您所使用快取節點中的核心數,來判斷您自己的閾值。若您超過此閾值,並且您的主要工作負載是來自讀取請求,請透過新增僅供讀取複本來向外擴展您的快取叢集。若主要工作負載是來自寫入請求,取決於您的叢集組態,我們建議您:

  • Valkey 或 Redis OSS(停用叢集模式) 叢集:使用較大的快取執行個體類型來擴展規模。

  • Valkey 或 Redis OSS(啟用叢集模式) 叢集:新增更多碎片,將寫入工作負載分散到更多主要節點。

提示

與其使用主機層級指標 CPUUtilization,Valkey 和 Redis OSS使用者可以使用指標 EngineCPUUtilization,該指標會報告 Valkey 或 Redis OSS引擎核心上的用量百分比。若要查看此指標是否可在您的節點上使用,以及如需詳細資訊,請參閱 Valkey 和 Redis 的指標OSS

對於 4 個vCPUs 以上的較大節點類型,您可能想要使用 EngineCPUUtilization 指標,該指標會報告 Valkey 或 Redis OSS引擎核心上的用量百分比。若要查看此指標是否在您的節點上可用,以及如需詳細資訊,請參閱 Redis 的指標。 OSS

Memcached

因為 Memcached 為多執行緒,此指標可高達 90%。如果您超過此閾值,請使用較大的快取節點類型來擴展快取叢集,或新增更多快取節點來擴展。

EngineCPUUtilization

對於具有 4 個vCPUs 或更多節點的較大節點類型,您可能想要使用 EngineCPUUtilization 指標,該指標會報告 Redis OSS引擎核心上的用量百分比。若要查看此指標是否可在您的節點上使用,以及如需詳細資訊,請參閱 Valkey 和 Redis 的指標OSS

如需詳細資訊,請參閱使用 Amazon 監控 Amazon ElastiCache (RedisOSS) 最佳實務 CloudWatchCPUs一節。

SwapUsage (Valkey 和 RedisOSS)

此為主機層級指標,以位元組報告。如需詳細資訊,請參閱主機層級指標

FreeableMemory CloudWatch 指標接近 0 (即低於 100MB或SwapUsage指標大於FreeableMemory指標,表示節點處於記憶體壓力下。如果發生此情況,請見下列主題:

移出

此為快取引擎指標。建議您根據應用程式需求,親自判斷此指標的警示閾值。

如果您使用 Memcached 並超過您選擇的閾值,請使用較大的節點類型來擴展叢集,或新增更多節點來擴展叢集。

CurrConnections

此為快取引擎指標。建議您根據應用程式需求,親自判斷此指標的警示閾值。

越來越多的 CurrConnections可能表示您的應用程式發生問題;您需要調查應用程式行為以解決此問題。

如需詳細資訊,請參閱使用 Amazon 監控 Amazon ElastiCache (RedisOSS) 最佳實務 CloudWatch的連線一節。

記憶體 (Valkey 和 RedisOSS)

記憶體是 Valkey 和 Redis 的核心面向OSS。為避免資料遺失以及因應資料集的未來成長而調整,了解叢集的記憶體使用率是必要的。有關節點記憶體使用率的統計資料,請參閱 INFO命令的記憶體區段。

如需詳細資訊,請參閱使用 Amazon 監控 Amazon ElastiCache (RedisOSS) 最佳實務 CloudWatch記憶體一節。

網路

叢集網路頻寬容量的決定因素之一,是您選取的節點類型。如需節點網路容量的詳細資訊,請參閱 Amazon ElastiCache 定價

如需詳細資訊,請參閱使用 Amazon 監控 Amazon ElastiCache (RedisOSS) 最佳實務 CloudWatch的網路一節。

Latency (延遲)

您可以使用提供每個資料結構彙總延遲的一組 CloudWatch 指標來測量命令的延遲。這些延遲指標是使用 Valkey commandstats INFO命令的統計資料計算。

如需詳細資訊,請參閱使用 Amazon ElastiCache 監控 Amazon 最佳實務 CloudWatch延遲一節。

複寫

遭複寫的資料量可透過 ReplicationBytes 指標顯示。雖然此指標代表複寫群組上的寫入負載,但並沒有提供複寫運作狀態的深入分析。針對這個用途,您可以使用 ReplicationLag 指標。

如需詳細資訊,請參閱使用 Amazon 監控 Amazon ElastiCache (RedisOSS) 最佳實務的 CloudWatch複寫章節。

流量管理 (Valkey 和 RedisOSS)

ElastiCache (Redis OSS) 會在傳送的傳入命令數量超過 Valkey 或 Redis 可以處理的節點時,自動針對節點管理流量OSS。這樣做是為了讓引擎保持最佳運作狀態和穩定性。

若在節點上主動管理流量,則指標 TrafficManagementActive 會發出資料點 1。這表示節點的規模可能不足以因應所提供的工作負載。如果此指標長時間維持 1,請評估叢集,以決定是否需要縱向擴展或橫向擴展。

如需詳細資訊,請參閱指標頁面上的 TrafficManagementActive 指標。