Amazon OpenSearch Service 的建議 CloudWatch 警示 - Amazon OpenSearch Service

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Amazon OpenSearch Service 的建議 CloudWatch 警示

CloudWatch 警示會在 CloudWatch 指標超過指定值一段時間時執行動作。例如,如果您 AWS 的叢集運作狀態超過一分鐘red,您可能想要傳送電子郵件給您。本節包含 Amazon OpenSearch Service 的一些建議警示,以及如何回應這些警示。

您可以使用 自動部署這些警示 AWS CloudFormation。如需範例堆疊,請參閱相關GitHub儲存庫

注意

如果您部署 CloudFormation 堆疊,則 KMSKeyErrorKMSKeyInaccessible 警示將處於 Insufficient Data 狀態,因為只有在網域遇到加密金鑰問題時,才會顯示這些指標。

如需設定警示的詳細資訊,請參閱 Amazon CloudWatch 使用者指南 中的建立 Amazon 警示 CloudWatch

警示 問題
ClusterStatus.red 上限為 >= 1 達 1 分鐘,連續 1 次 至少一個主要碎片及其複本不會分配到節點。請參閱 紅色叢集狀態
ClusterStatus.yellow 上限為 >= 1 持續 1 分鐘,連續 5 次 至少一個複本碎片不會分配到節點。請參閱 黃色叢集狀態
FreeStorageSpace 下限為 <= 20480 達 1 分鐘,連續 1 次 您叢集內的節點縮減至 20 GiB 的可用儲存空間。請參閱 缺少可用儲存空間。此值的單位為 MiB,所以建議您將其設為每個節點的 25% 儲存空間,而不是 20480。
ClusterIndexWritesBlocked 為 >= 1 達 5 分鐘,連續 1 次 您的叢集正在封鎖寫入請求。請參閱 ClusterBlockException
Nodes下限為 < x 達 1 天,連續 1 次 x 是您叢集中的節點數。此警示表示您叢集中至少有一個節點已無法連線達 1 天時間。請參閱 叢集節點失敗
AutomatedSnapshotFailure 上限為 >= 1 達 1 分鐘,連續 1 次 自動快照失敗。此故障通常是紅色叢集運作狀態的結果。請參閱 紅色叢集狀態

如需所有自動快照的摘要和一些有關故障的資訊,請嘗試以下其中一個請求:

GET domain_endpoint/_snapshot/cs-automated/_all GET domain_endpoint/_snapshot/cs-automated-enc/_all
CPUUtilizationWarmCPUUtilization 上限為 >= 80%,15 分鐘,連續 3 次 100% CPU使用率有時可能會發生,但持續高使用率是有問題的。可考慮使用較大的執行個體類型或新增執行個體。
JVMMemoryPressure 上限為 >= 95% 達 1 分鐘,連續 3 次 如果使用量增加,叢集可能遇到記憶體不足錯誤。請考慮垂直擴展。 OpenSearch Service 使用半個執行個體RAM的 Java 堆積,堆積大小上限為 32 GiB 您可以垂直擴展執行個體至 64 GiBRAM,此時您可以新增執行個體以水平擴展。
OldGenJVMMemoryPressure 上限為 >= 80% 達 1 分鐘,連續 3 次
MasterCPUUtilization 上限為 >= 50% 達 15 分鐘,連續 3 次 可考慮使用較大的執行個體類型為您的專用主節點。由於其在叢集穩定性和藍/綠部署中扮演的角色,專用主節點CPU的使用量應低於資料節點。
MasterJVMMemoryPressure 上限為 >= 95% 達 1 分鐘,連續 3 次
MasterOldGenJVMMemoryPressure 上限為 >= 80% 達 1 分鐘,連續 3 次
KMSKeyError 為 >= 1 達 1 分鐘,連續 1 次 用於加密網域中靜態資料的 AWS KMS 加密金鑰已停用。重新啟用它來恢復正常操作。如需詳細資訊,請參閱Amazon OpenSearch 服務的靜態數據加密
KMSKeyInaccessible 為 >= 1 達 1 分鐘,連續 1 次 用於加密網域中靜態資料的 AWS KMS 加密金鑰已刪除或撤銷其對 OpenSearch Service 的授予。您無法復原此狀態的網域。但是,如果您有手動快照,您可以使用它來遷移至新網域。如需進一步了解,請參閱 Amazon OpenSearch 服務的靜態數據加密
shards.active 為 >= 30000 達 1 分鐘,連續 1 次

作用中主要碎片和複本碎片的總數大於 30,000。您可能太頻繁地輪換索引。請考慮使用 ISM 來移除達到特定年齡的索引。

5xx 警示 >= OpenSearchRequests 的 10% 一或多個資料節點可能會過載,或是請求無法在閒置逾時期間內完成。請考慮切換到較大型執行個體類型或在叢集中新增更多節點。確認您遵循碎片和叢集架構的最佳實務
MasterReachableFromNode 5 分鐘、連續 1 次的最大值為 < 1

此警示表示主節點已停止或無法存取。這些失敗通常是網路連線問題或 AWS 相依性問題的結果。

ThreadpoolWriteQueue 平均為 >= 100 達 1 分鐘,連續 1 次 叢集正在經歷高索引並行狀況。檢閱和控制索引請求,或增加叢集資源。
ThreadpoolSearchQueue 平均為 >= 500 達 1 分鐘,連續 1 次 叢集正在經歷高搜尋並行狀況。考慮擴展您的叢集。您也可以增加搜尋佇列大小,但過度增加可能會導致記憶體不足錯誤。
ThreadpoolSearchQueue 上限為 >= 5000 達 1 分鐘,連續 1 次
增加 ThreadpoolSearchRejected SUM >=1{ 數學表達式 DIFF( )} 持續 1 分鐘,連續 1 次 這些警示會通知您可能會影響效能和穩定性的網域問題。
增加 ThreadpoolWriteRejected SUM >=1{ 數學表達式 DIFF( )} 持續 1 分鐘,連續 1 次
注意

如果您只是想檢視指標,請參閱 使用 Amazon 監控 OpenSearch 叢集指標 CloudWatch

您可能會考慮的其他警示

考慮根據您經常使用 OpenSearch 的服務功能設定下列警示。

警示 問題
WarmFreeStorageSpace >= 10% 您已達到可用暖儲存總量的 10%。 會WarmFreeStorageSpace測量 MiB . UltraWarm uses Amazon S3 中可用暖儲存空間的總和,而不是連接的磁碟。
HotToWarmMigrationQueueSize 為 >= 20 達 1 分鐘,連續 3 次

大量索引正在同時從熱索引移至 UltraWarm 儲存。考慮擴展您的叢集。

HotToWarmMigrationSuccessLatency 為 >= 1 天,連續 1 次

設定此警示,以便在您嘗試滾動每日索引,HotToWarmMigrationSuccessCount x 延遲大於 24 小時時收到通知。

WarmJVMMemoryPressure 上限為 >= 95% 達 1 分鐘,連續 3 次 如果使用量增加,叢集可能遇到記憶體不足錯誤。請考慮垂直擴展。 OpenSearch Service 使用半個執行個體RAM的 Java 堆積,堆積大小上限為 32 GiB 您可以垂直擴展執行個體至 64 GiBRAM,此時您可以新增執行個體以水平擴展。
WarmOldGenJVMMemoryPressure 上限為 >= 80% 達 1 分鐘,連續 3 次
WarmToColdMigrationQueueSize 為 >= 20 達 1 分鐘,連續 3 次

大量索引正在同時從 UltraWarm 移至冷儲存。考慮擴展您的叢集。

HotToWarmMigrationFailureCount 為 >= 1 達 1 分鐘,連續 1 次

遷移可能在快照、碎片重新配置或強制合併期間失敗。快照或碎片重新配置期間的失敗通常是因為節點故障或 S3 連線問題。磁碟空間不足通常是強制合併失敗的根本原因。

WarmToColdMigrationFailureCount 為 >= 1 達 1 分鐘,連續 1 次 嘗試將索引中繼資料遷移至冷儲存裝置失敗時,遷移通常會失敗。移除熱索引叢集狀態時也可能發生故障。
WarmToColdMigrationLatency 為 >= 1 天,連續 1 次

設定此警示,以便在您嘗試滾動每日索引,WarmToColdMigrationSuccessCount x 延遲大於 24 小時時收到通知。

AlertingDegraded 為 >= 1 達 1 分鐘,連續 1 次

提醒索引為紅色,或是有一或多個節點不在排程上。

ADPluginUnhealthy 為 >= 1 達 1 分鐘,連續 1 次

異常偵測外掛程式無法正常運作,原因是高故障率或使用的其中一個索引是紅色。

AsynchronousSearchFailureRate 為 >= 1 達 1 分鐘,連續 1 次

最後一分鐘內至少有一個非同步搜尋失敗,這可能表示協調器節點失敗。非同步搜尋請求的生命週期僅在協調器節點上受管,因此如果協調器停機,請求即會失敗。

AsynchronousSearchStoreHealth 為 >= 1 達 1 分鐘,連續 1 次

持續性索引中非同步搜尋回應存放區的運作狀態為紅色。您可能正在儲存大型非同步回應,這可能會破壞叢集的穩定性。請嘗試將您的非同步搜尋回應限制在 10 MB 以下。

SQLUnhealthy 為 >= 1 達 1 分鐘,連續 3 次

SQL 外掛程式正在傳回 5xx 回應碼,或將無效的查詢傳遞DSL至 OpenSearch。針對用戶端向外掛程式提出的請求進行疑難排解。

LTRStatus.red 為 >= 1 達 1 分鐘,連續 1 次

至少有一個執行 Learning to Rank 外掛程式所需的索引缺少主要碎片,並且無法運作。