本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Amazon OpenSearch Service 的建議 CloudWatch 警示
CloudWatch 警示會在 CloudWatch 指標超過指定值一段時間時執行動作。例如,如果您 AWS 的叢集運作狀態超過一分鐘red
,您可能想要傳送電子郵件給您。本節包含 Amazon OpenSearch Service 的一些建議警示,以及如何回應這些警示。
您可以使用 自動部署這些警示 AWS CloudFormation。如需範例堆疊,請參閱相關GitHub儲存庫
注意
如果您部署 CloudFormation 堆疊,則 KMSKeyError
和 KMSKeyInaccessible
警示將處於 Insufficient Data
狀態,因為只有在網域遇到加密金鑰問題時,才會顯示這些指標。
如需設定警示的詳細資訊,請參閱 Amazon CloudWatch 使用者指南 中的建立 Amazon 警示。 CloudWatch
警示 | 問題 |
---|---|
ClusterStatus.red 上限為 >= 1 達 1 分鐘,連續 1 次 |
至少一個主要碎片及其複本不會分配到節點。請參閱 紅色叢集狀態。 |
ClusterStatus.yellow 上限為 >= 1 持續 1 分鐘,連續 5 次 |
至少一個複本碎片不會分配到節點。請參閱 黃色叢集狀態。 |
FreeStorageSpace 下限為 <= 20480 達 1 分鐘,連續 1 次 |
您叢集內的節點縮減至 20 GiB 的可用儲存空間。請參閱 缺少可用儲存空間。此值的單位為 MiB,所以建議您將其設為每個節點的 25% 儲存空間,而不是 20480。 |
ClusterIndexWritesBlocked 為 >= 1 達 5 分鐘,連續 1 次 |
您的叢集正在封鎖寫入請求。請參閱 ClusterBlockException。 |
Nodes 下限為 < x 達 1 天,連續 1 次 |
x 是您叢集中的節點數。此警示表示您叢集中至少有一個節點已無法連線達 1 天時間。請參閱 叢集節點失敗。 |
AutomatedSnapshotFailure 上限為 >= 1 達 1 分鐘,連續 1 次 |
自動快照失敗。此故障通常是紅色叢集運作狀態的結果。請參閱 紅色叢集狀態。 如需所有自動快照的摘要和一些有關故障的資訊,請嘗試以下其中一個請求:
|
CPUUtilization 或 WarmCPUUtilization 上限為 >= 80%,15 分鐘,連續 3 次 |
100% CPU使用率有時可能會發生,但持續高使用率是有問題的。可考慮使用較大的執行個體類型或新增執行個體。 |
JVMMemoryPressure 上限為 >= 95% 達 1 分鐘,連續 3 次 |
如果使用量增加,叢集可能遇到記憶體不足錯誤。請考慮垂直擴展。 OpenSearch Service 使用半個執行個體RAM的 Java 堆積,堆積大小上限為 32 GiB 您可以垂直擴展執行個體至 64 GiBRAM,此時您可以新增執行個體以水平擴展。 |
OldGenJVMMemoryPressure 上限為 >= 80% 達 1 分鐘,連續 3 次 |
|
MasterCPUUtilization 上限為 >= 50% 達 15 分鐘,連續 3 次 |
可考慮使用較大的執行個體類型為您的專用主節點。由於其在叢集穩定性和藍/綠部署中扮演的角色,專用主節點CPU的使用量應低於資料節點。 |
MasterJVMMemoryPressure 上限為 >= 95% 達 1 分鐘,連續 3 次 |
|
MasterOldGenJVMMemoryPressure 上限為 >= 80% 達 1 分鐘,連續 3 次 |
|
KMSKeyError 為 >= 1 達 1 分鐘,連續 1 次 |
用於加密網域中靜態資料的 AWS KMS 加密金鑰已停用。重新啟用它來恢復正常操作。如需詳細資訊,請參閱Amazon OpenSearch 服務的靜態數據加密。 |
KMSKeyInaccessible 為 >= 1 達 1 分鐘,連續 1 次 |
用於加密網域中靜態資料的 AWS KMS 加密金鑰已刪除或撤銷其對 OpenSearch Service 的授予。您無法復原此狀態的網域。但是,如果您有手動快照,您可以使用它來遷移至新網域。如需進一步了解,請參閱 Amazon OpenSearch 服務的靜態數據加密。 |
shards.active 為 >= 30000 達 1 分鐘,連續 1 次 |
作用中主要碎片和複本碎片的總數大於 30,000。您可能太頻繁地輪換索引。請考慮使用 ISM 來移除達到特定年齡的索引。 |
5xx 警示 >= OpenSearchRequests 的 10% |
一或多個資料節點可能會過載,或是請求無法在閒置逾時期間內完成。請考慮切換到較大型執行個體類型或在叢集中新增更多節點。確認您遵循碎片和叢集架構的最佳實務。 |
MasterReachableFromNode 5 分鐘、連續 1 次的最大值為 < 1 |
此警示表示主節點已停止或無法存取。這些失敗通常是網路連線問題或 AWS 相依性問題的結果。 |
ThreadpoolWriteQueue 平均為 >= 100 達 1 分鐘,連續 1 次 |
叢集正在經歷高索引並行狀況。檢閱和控制索引請求,或增加叢集資源。 |
ThreadpoolSearchQueue 平均為 >= 500 達 1 分鐘,連續 1 次 |
叢集正在經歷高搜尋並行狀況。考慮擴展您的叢集。您也可以增加搜尋佇列大小,但過度增加可能會導致記憶體不足錯誤。 |
ThreadpoolSearchQueue 上限為 >= 5000 達 1 分鐘,連續 1 次 |
|
增加 ThreadpoolSearchRejected SUM >=1{ 數學表達式 DIFF( )} 持續 1 分鐘,連續 1 次 |
這些警示會通知您可能會影響效能和穩定性的網域問題。 |
增加 ThreadpoolWriteRejected SUM >=1{ 數學表達式 DIFF( )} 持續 1 分鐘,連續 1 次 |
注意
如果您只是想檢視指標,請參閱 使用 Amazon 監控 OpenSearch 叢集指標 CloudWatch。
您可能會考慮的其他警示
考慮根據您經常使用 OpenSearch 的服務功能設定下列警示。
警示 | 問題 |
---|---|
WarmFreeStorageSpace >= 10% |
您已達到可用暖儲存總量的 10%。 會WarmFreeStorageSpace 測量 MiB . UltraWarm uses Amazon S3 中可用暖儲存空間的總和,而不是連接的磁碟。 |
HotToWarmMigrationQueueSize 為 >= 20 達 1 分鐘,連續 3 次 |
大量索引正在同時從熱索引移至 UltraWarm 儲存。考慮擴展您的叢集。 |
HotToWarmMigrationSuccessLatency 為 >= 1 天,連續 1 次 |
設定此警示,以便在您嘗試滾動每日索引, |
WarmJVMMemoryPressure 上限為 >= 95% 達 1 分鐘,連續 3 次 |
如果使用量增加,叢集可能遇到記憶體不足錯誤。請考慮垂直擴展。 OpenSearch Service 使用半個執行個體RAM的 Java 堆積,堆積大小上限為 32 GiB 您可以垂直擴展執行個體至 64 GiBRAM,此時您可以新增執行個體以水平擴展。 |
WarmOldGenJVMMemoryPressure 上限為 >= 80% 達 1 分鐘,連續 3 次 |
|
WarmToColdMigrationQueueSize 為 >= 20 達 1 分鐘,連續 3 次 |
大量索引正在同時從 UltraWarm 移至冷儲存。考慮擴展您的叢集。 |
HotToWarmMigrationFailureCount 為 >= 1 達 1 分鐘,連續 1 次 |
遷移可能在快照、碎片重新配置或強制合併期間失敗。快照或碎片重新配置期間的失敗通常是因為節點故障或 S3 連線問題。磁碟空間不足通常是強制合併失敗的根本原因。 |
WarmToColdMigrationFailureCount 為 >= 1 達 1 分鐘,連續 1 次 |
嘗試將索引中繼資料遷移至冷儲存裝置失敗時,遷移通常會失敗。移除熱索引叢集狀態時也可能發生故障。 |
WarmToColdMigrationLatency 為 >= 1 天,連續 1 次 |
設定此警示,以便在您嘗試滾動每日索引, |
AlertingDegraded 為 >= 1 達 1 分鐘,連續 1 次 |
提醒索引為紅色,或是有一或多個節點不在排程上。 |
ADPluginUnhealthy 為 >= 1 達 1 分鐘,連續 1 次 |
異常偵測外掛程式無法正常運作,原因是高故障率或使用的其中一個索引是紅色。 |
AsynchronousSearchFailureRate 為 >= 1 達 1 分鐘,連續 1 次 |
最後一分鐘內至少有一個非同步搜尋失敗,這可能表示協調器節點失敗。非同步搜尋請求的生命週期僅在協調器節點上受管,因此如果協調器停機,請求即會失敗。 |
AsynchronousSearchStoreHealth 為 >= 1 達 1 分鐘,連續 1 次 |
持續性索引中非同步搜尋回應存放區的運作狀態為紅色。您可能正在儲存大型非同步回應,這可能會破壞叢集的穩定性。請嘗試將您的非同步搜尋回應限制在 10 MB 以下。 |
SQLUnhealthy 為 >= 1 達 1 分鐘,連續 3 次 |
SQL 外掛程式正在傳回 5xx 回應碼,或將無效的查詢傳遞DSL至 OpenSearch。針對用戶端向外掛程式提出的請求進行疑難排解。 |
LTRStatus.red 為 >= 1 達 1 分鐘,連續 1 次 |
至少有一個執行 Learning to Rank 外掛程式所需的索引缺少主要碎片,並且無法運作。 |