Amazon OpenSearch Service 的建議 CloudWatch 警示 - Amazon OpenSearch Service

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Amazon OpenSearch Service 的建議 CloudWatch 警示

當 CloudWatch 指標在經過一些時間超過指定的值時,CloudWatch 警示會執行動作。例如,如果您 AWS 的叢集運作狀態超過一分鐘red,您可能想要傳送電子郵件給您。本節包含 Amazon OpenSearch Service 的一些建議警示以及回應方式。

您可以使用 自動部署這些警示 AWS CloudFormation。如需範例堆疊,請參閱相關的 GitHub 儲存庫

注意

如果您部署 CloudFormation 堆疊,KMSKeyErrorKMSKeyInaccessible 警示將存在於 Insufficient Data 狀態,因為只有在網域遇到其加密金鑰問題時才會顯示這些指標。

如需有關設定警示的詳細資訊,請參閱 《Amazon CloudWatch 使用者指南》中的建立 Amazon CloudWatch 警示

警示 問題
ClusterStatus.red 上限為 >= 1 達 1 分鐘,連續 1 次 至少一個主要碎片及其複本不會分配到節點。請參閱 紅色叢集狀態
ClusterStatus.yellow 上限為 >= 1 持續 1 分鐘,連續 5 次 至少一個複本碎片不會分配到節點。請參閱 黃色叢集狀態
FreeStorageSpace 下限為 <= 20480 達 1 分鐘,連續 1 次 您叢集內的節點縮減至 20 GiB 的可用儲存空間。請參閱 缺少可用儲存空間。此值的單位為 MiB,所以建議您將其設為每個節點的 25% 儲存空間,而不是 20480。
ClusterIndexWritesBlocked 為 >= 1 達 5 分鐘,連續 1 次 您的叢集正在封鎖寫入請求。請參閱 ClusterBlockException
Nodes下限為 < x 達 1 天,連續 1 次 x 是您叢集中的節點數。此警示表示您叢集中至少有一個節點已無法連線達 1 天時間。請參閱 叢集節點失敗
AutomatedSnapshotFailure 上限為 >= 1 達 1 分鐘,連續 1 次 自動快照失敗。此故障通常是紅色叢集運作狀態的結果。請參閱 紅色叢集狀態

如需所有自動快照的摘要和一些有關故障的資訊,請嘗試以下其中一個請求:

GET domain_endpoint/_snapshot/cs-automated/_all GET domain_endpoint/_snapshot/cs-automated-enc/_all
CPUUtilizationWarmCPUUtilization 上限為 >= 80%,15 分鐘,連續 3 次 有時可能會出現 100% CPU 使用率,但持續高用量會有問題。可考慮使用較大的執行個體類型或新增執行個體。
JVMMemoryPressure 上限為 >= 95% 達 1 分鐘,連續 3 次 如果使用量增加,叢集可能遇到記憶體不足錯誤。可考慮垂直擴展。OpenSearch Service 針對 Java 堆積使用執行個體 RAM 的一半,堆積大小最多可達 32 GiB。您可以垂直擴展執行個體高達 64 GiB 的 RAM,屆時便能透過新增執行個體進行水平擴展。
OldGenJVMMemoryPressure 上限為 >= 80% 達 1 分鐘,連續 3 次
ManagerCPUUtilization 上限為 >= 50% 達 15 分鐘,連續 3 次 請考慮將較大的執行個體類型用於您的專用管理員節點。由於其在叢集穩定性和藍/綠部署中扮演的角色,專用管理員節點的 CPU 用量應該低於資料節點。
ManagerJVMMemoryPressure 上限為 >= 95% 達 1 分鐘,連續 3 次
ManagerOldGenJVMMemoryPressure 上限為 >= 80% 達 1 分鐘,連續 3 次
KMSKeyError 為 >= 1 達 1 分鐘,連續 1 次 用於加密網域中靜態資料的 AWS KMS 加密金鑰已停用。重新啟用它來恢復正常操作。如需詳細資訊,請參閱Amazon OpenSearch Service 的靜態資料加密
KMSKeyInaccessible 為 >= 1 達 1 分鐘,連續 1 次 用於加密網域中靜態資料的 AWS KMS 加密金鑰已刪除或已撤銷其對 OpenSearch Service 的授予。您無法復原此狀態的網域。但是,如果您有手動快照,您可以使用它來遷移至新網域。如需進一步了解,請參閱 Amazon OpenSearch Service 的靜態資料加密
shards.active 為 >= 30000 達 1 分鐘,連續 1 次

作用中主要碎片和複本碎片的總數大於 30,000。您可能太頻繁地輪換索引。考慮使用 ISM 在索引達到特定使用期限後將其移除。

5xx 警示 >= OpenSearchRequests 的 10% 一或多個資料節點可能會過載,或是請求無法在閒置逾時期間內完成。請考慮切換到較大型執行個體類型或在叢集中新增更多節點。確認您遵循碎片和叢集架構的最佳實務
ManagerReachableFromNode 5 分鐘、連續 1 次的最大值為 < 1

此警示表示管理員節點已停止或無法連線。這些失敗通常是網路連線問題或 AWS 相依性問題的結果。

ThreadpoolWriteQueue 平均為 >= 100 達 1 分鐘,連續 1 次 叢集正在經歷高索引並行狀況。檢閱和控制索引請求,或增加叢集資源。
ThreadpoolSearchQueue 平均為 >= 500 達 1 分鐘,連續 1 次 叢集正在經歷高搜尋並行狀況。考慮擴展您的叢集。您也可以增加搜尋佇列大小,但過度增加可能會導致記憶體不足錯誤。
ThreadpoolSearchQueue 上限為 >= 5000 達 1 分鐘,連續 1 次
ThreadpoolSearchRejected SUM 增加 >=1{ 數學表達式 DIFF ( )},持續 1 分鐘,連續 1 次 這些警示會通知您可能會影響效能和穩定性的網域問題。
ThreadpoolWriteRejected SUM 增加 >=1{ 數學表達式 DIFF ( )},持續 1 分鐘,連續 1 次
注意

如果您只是想檢視指標,請參閱 使用 Amazon CloudWatch 監控 OpenSearch 叢集指標

您可能會考慮的其他警示

根據您經常使用的 OpenSearch Service 功能,請考慮設定下列警示。

警示 問題
WarmFreeStorageSpace >= 10% 您已達到可用暖儲存總量的 10%。 會WarmFreeStorageSpace測量 MiB 中可用暖儲存空間的總和。UltraWarm 使用 Amazon S3 而非連接的磁碟。
HotToWarmMigrationQueueSize 為 >= 20 達 1 分鐘,連續 3 次

大量的索引正在同時從熱儲存移至 UltraWarm 儲存。考慮擴展您的叢集。

HotToWarmMigrationSuccessLatency 為 >= 1 天,連續 1 次

設定此警示,以便在您嘗試滾動每日索引,HotToWarmMigrationSuccessCount x 延遲大於 24 小時時收到通知。

WarmJVMMemoryPressure 上限為 >= 95% 達 1 分鐘,連續 3 次 如果使用量增加,叢集可能遇到記憶體不足錯誤。可考慮垂直擴展。OpenSearch Service 針對 Java 堆積使用執行個體 RAM 的一半,堆積大小最多可達 32 GiB。您可以垂直擴展執行個體高達 64 GiB 的 RAM,屆時便能透過新增執行個體進行水平擴展。
WarmOldGenJVMMemoryPressure 上限為 >= 80% 達 1 分鐘,連續 3 次
WarmToColdMigrationQueueSize 為 >= 20 達 1 分鐘,連續 3 次

大量的索引正在同時從 UltraWarm 移至冷儲存。考慮擴展您的叢集。

HotToWarmMigrationFailureCount 為 >= 1 達 1 分鐘,連續 1 次

遷移可能在快照、碎片重新配置或強制合併期間失敗。快照或碎片重新配置期間的失敗通常是因為節點故障或 S3 連線問題。磁碟空間不足通常是強制合併失敗的根本原因。

WarmToColdMigrationFailureCount 為 >= 1 達 1 分鐘,連續 1 次 嘗試將索引中繼資料遷移至冷儲存裝置失敗時,遷移通常會失敗。移除熱索引叢集狀態時也可能發生故障。
WarmToColdMigrationLatency 為 >= 1 天,連續 1 次

設定此警示,以便在您嘗試滾動每日索引,WarmToColdMigrationSuccessCount x 延遲大於 24 小時時收到通知。

AlertingDegraded 為 >= 1 達 1 分鐘,連續 1 次

提醒索引為紅色,或是有一或多個節點不在排程上。

ADPluginUnhealthy 為 >= 1 達 1 分鐘,連續 1 次

異常偵測外掛程式無法正常運作,原因是高故障率或使用的其中一個索引是紅色。

AsynchronousSearchFailureRate 為 >= 1 達 1 分鐘,連續 1 次

最後一分鐘內至少有一個非同步搜尋失敗,這可能表示協調器節點失敗。非同步搜尋請求的生命週期僅在協調器節點上受管,因此如果協調器停機,請求即會失敗。

AsynchronousSearchStoreHealth 為 >= 1 達 1 分鐘,連續 1 次

持續性索引中非同步搜尋回應存放區的運作狀態為紅色。您可能正在儲存大型非同步回應,這可能會破壞叢集的穩定性。請嘗試將您的非同步搜尋回應限制在 10 MB 以下。

SQLUnhealthy 為 >= 1 達 1 分鐘,連續 3 次

SQL 外掛程式正在傳回 5xx 回應碼或將無效的查詢 DSL 傳遞至 OpenSearch。針對用戶端向外掛程式提出的請求進行疑難排解。

LTRStatus.red 為 >= 1 達 1 分鐘,連續 1 次

至少有一個執行 Learning to Rank 外掛程式所需的索引缺少主要碎片,並且無法運作。