翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
Amazon OpenSearch Service の推奨 CloudWatch アラーム
CloudWatch アラームは、 CloudWatch メトリクスが指定された値を一定時間超えたときにアクションを実行します。例えば、クラスター AWS のヘルスステータスが red
1 分以上の場合は、E メールで送信できます。このセクションでは、Amazon OpenSearch Service に推奨されるアラームとその対応方法について説明します。
これらのアラームは、 を使用して自動的にデプロイできます AWS CloudFormation。サンプルスタックについては、関連するGitHubリポジトリ
注記
CloudFormation スタックをデプロイすると、 アラームKMSKeyError
と KMSKeyInaccessible
アラームは Insufficient Data
状態になります。これらのメトリクスは、ドメインで暗号化キーの問題が発生した場合にのみ表示されるためです。
アラームの設定の詳細については、「Amazon CloudWatch ユーザーガイド」の「Amazon アラームの作成」を参照してください。 CloudWatch
アラーム | 問題 |
---|---|
ClusterStatus.red maximum is >= 1 for 1 minute, 1 consecutive time |
少なくとも 1 つのプライマリシャードとそのレプリカがノードに割り当てられていません。「赤のクラスター状態」を参照してください。 |
ClusterStatus.yellow maximum is >= 1 for 1 minute, 5 consecutive times |
少なくとも 1 つのレプリカシャードがノードに割り当てられていません。「黄色のクラスター状態」を参照してください。 |
FreeStorageSpace minimum is <= 20480 for 1 minute, 1 consecutive time |
クラスターのノードの空きストレージ容量が 20 GiB に下がっています。「使用可能なストレージ領域の不足」を参照してください。この値は MiB 単位です。20480 ではなく、各ノードのストレージ容量の 25% に設定することをお勧めします。 |
ClusterIndexWritesBlocked is >= 1 for 5 minutes, 1 consecutive time |
クラスターは書き込みリクエストをブロックしています。「ClusterBlockException」を参照してください。 |
Nodes minimum is < x for 1 day, 1 consecutive time |
x はクラスター内のノード数です。このアラームは、クラスター内の少なくとも 1 つのノードが 1 日間にわたってアクセスできない状態を意味します。「障害が発生したクラスターノード」を参照してください。 |
AutomatedSnapshotFailure maximum is >= 1 for 1 minute, 1 consecutive time |
自動スナップショットが失敗しました。多くの場合、この失敗によってクラスター状態が赤になります。「赤のクラスター状態」を参照してください。 すべての自動スナップショットの概要および障害に関する情報を取得するには、次のリクエストのいずれかを試してください。
|
CPUUtilization または WarmCPUUtilization maximum is >= 80% for 15 minutes, 3 consecutive times |
CPU 使用率が 100% になることもありますが、高い使用率が持続することは問題です。より大規模なインスタンスタイプを使用するか、インスタンスを追加することを検討してください。 |
JVMMemoryPressure maximum is >= 95% for 1 minute, 3 consecutive times |
使用量が増加した場合にクラスターでメモリ不足エラーが発生する可能性があります。垂直スケーリングを検討してください。 OpenSearch サービスは Java ヒープRAMにインスタンスの の半分を使用し、ヒープサイズは最大 32 GiB です。インスタンスは 64 GiB まで垂直方向にスケールできます。この時点でRAM、インスタンスを追加することで水平方向にスケールできます。 |
OldGenJVMMemoryPressure maximum is >= 80% for 1 minute, 3 consecutive times |
|
ManagerCPUUtilization maximum is >= 50% for 15 minutes, 3 consecutive times |
専用マネージャーノードには、より大きなインスタンスタイプを使用することを検討してください。クラスターの安定性と Blue/Green デプロイにおける役割のため、専用マネージャーノードのCPU使用量はデータノードよりも少なくなります。 |
ManagerJVMMemoryPressure maximum is >= 95% for 1 minute, 3 consecutive times |
|
ManagerOldGenJVMMemoryPressure maximum is >= 80% for 1 minute, 3 consecutive times |
|
KMSKeyError is >= 1 for 1 minute, 1 consecutive time |
ドメイン内の保管中のデータの AWS KMS 暗号化に使用される暗号化キーは無効になっています。通常のオペレーションを復元するために、再度有効にしてください。詳細については、「Amazon OpenSearch Service の保管中のデータの暗号化」を参照してください。 |
KMSKeyInaccessible is >= 1 for 1 minute, 1 consecutive time |
ドメイン内の保管中のデータの暗号化に使用される AWS KMS 暗号化キーが削除されたか、 OpenSearch サービスへの許可が取り消されました。この状態にあるドメインを復元することはできません。ただし、手動スナップショットがある場合は、それを使用して新しいドメインに移行できます。詳細については、「Amazon OpenSearch Service の保管中のデータの暗号化」を参照してください。 |
shards.active is >= 30000 for 1 minute, 1 consecutive time |
アクティブなプライマリとレプリカの両方のシャードの合計数は、30,000よりも多くなります。インデックスを頻繁にローテーションさせ過ぎている可能性があります。特定の期間に達したらISM、 を使用してインデックスを削除することを検討してください。 |
5xx alarms >= 10% of OpenSearchRequests |
1 つ以上のデータノードが過負荷になっているか、アイドルタイムアウト時間内にリクエストが完了しない可能性があります。より大きなインスタンスタイプに切り替えるか、クラスターにさらにノードを追加することを検討してください。シャードおよびクラスターアーキテクチャ用のベストプラクティスをフォローしていることを確認してください。 |
ManagerReachableFromNode maximum is < 1 for 5 minutes, 1 consecutive time |
このアラームは、マネージャーノードが停止したか、到達できないことを示します。これらの障害は通常、ネットワーク接続の問題または AWS 依存関係の問題が原因です。 |
ThreadpoolWriteQueue average is >= 100 for 1 minute, 1 consecutive time |
クラスタ-では、インデックス作成の同時実行性が高くなっています。インデックス作成リクエストを点検して抑制するか、クラスターリソースを増やします。 |
ThreadpoolSearchQueue average is >= 500 for 1 minute, 1 consecutive time |
クラスターでは、検索の同時実行性が高くなっています。クラスターのスケーリングを検討してください。検索キューのサイズを大きくすることもできますが、そうすると、メモリ不足エラーが発生する可能性があります。 |
ThreadpoolSearchQueue maximum is >= 5000 for 1 minute, 1 consecutive time |
|
の増加ThreadpoolSearchRejected SUMは >=1{ 数式 DIFF ( )} で 1 分間、連続 1 回 |
これらのアラームは、パフォーマンスや安定性に影響を及ぼす可能性のあるドメインの問題を通知します。 |
の増加ThreadpoolWriteRejected SUMは >=1{ 数式 DIFF ( )} で 1 分間、連続 1 回 |
注記
メトリクスを表示するのみであれば、「Amazon による OpenSearch クラスターメトリクスのモニタリング CloudWatch」を参照してください。
検討した方が良いその他のアラーム
定期的に使用する OpenSearch サービス機能に応じて、次のアラームを設定することを検討してください。
アラーム | 問題 |
---|---|
WarmFreeStorageSpace is >= 10% |
空きウォームストレージの合計の 10% に達しました。 は、アタッチされたディスク UltraWarm Amazon S3ではなく MiB で空きウォームストレージ容量の合計WarmFreeStorageSpace を測定します。 |
HotToWarmMigrationQueueSize is >= 20 for 1 minute, 3 consecutive times |
多数のインデックスがホットから UltraWarm ストレージに同時に移動しています。クラスターのスケーリングを検討してください。 |
HotToWarmMigrationSuccessLatency is >= 1 day, 1 consecutive time |
デイリーインデックスを動かそうとして |
WarmJVMMemoryPressure maximum is >= 95% for 1 minute, 3 consecutive times |
使用量が増加した場合にクラスターでメモリ不足エラーが発生する可能性があります。垂直スケーリングを検討してください。 OpenSearch サービスは Java ヒープRAMにインスタンスの の半分を使用し、ヒープサイズは最大 32 GiB です。インスタンスは最大 64 GiB の まで垂直方向にスケールできます。この時点でRAM、インスタンスを追加することで水平方向にスケールできます。 |
WarmOldGenJVMMemoryPressure maximum is >= 80% for 1 minute, 3 consecutive times |
|
WarmToColdMigrationQueueSize is >= 20 for 1 minute, 3 consecutive times |
多数のインデックスが同時に から UltraWarm コールドストレージに移行しています。クラスターのスケーリングを検討してください。 |
HotToWarmMigrationFailureCount is >= 1 for 1 minute, 1 consecutive time |
スナップショット、シャード再配置、または強制マージ中に、移行が失敗する可能性があります。スナップショットまたはシャード再配置中の障害は、通常、ノードの障害または S3 接続の問題が原因です。通常、ディスク領域の不足は、強制マージ失敗の根本的な原因です。 |
WarmToColdMigrationFailureCount is >= 1 for 1 minute, 1 consecutive time |
インデックスメタデータをコールドストレージに移動させようとして失敗すると、通常、移行は失敗します。ウォームインデックスクラスター状態が削除されたときにも、障害が発生する可能性があります。 |
WarmToColdMigrationLatency is >= 1 day, 1 consecutive time |
デイリーインデックスを動かそうとして |
AlertingDegraded is >= 1 for 1 minute, 1 consecutive time |
アラートインデックスが赤色であるか、1 つ以上のノードがスケジュールどおりでないことを意味します。 |
ADPluginUnhealthy is >= 1 for 1 minute, 1 consecutive time |
異常検出プラグインが正しく動作していません。これは、障害率が高いか、使用されているインデックスの 1 つが赤色であるためです。 |
AsynchronousSearchFailureRate is >= 1 for 1 minute, 1 consecutive time |
少なくとも 1 つの非同期検索が直前に失敗しました。これは、おそらくコーディネータノードが失敗したことを意味します。非同期検索リクエストのライフサイクルは、コーディネータノードでのみ管理されているので、コーディネータがダウンすると、リクエストは失敗します。 |
AsynchronousSearchStoreHealth is >= 1 for 1 minute, 1 consecutive time |
残存するインデックス内の非同期検索レスポンスストアの状態は、赤色です。大量の非同期レスポンスを保存している可能性があり、クラスターが不安定になる可能性があります。非同期検索レスポンスを 10 MB 以下に制限してください。 |
SQLUnhealthy is >= 1 for 1 minute, 3 consecutive times |
SQL プラグインが 5xx レスポンスコードを返すか、無効なクエリDSLを渡しています OpenSearch。クライアントがプラグインに対して行っているリクエストのトラブルシューティングを行います。 |
LTRStatus.red is >= 1 for 1 minute, 1 consecutive time |
Learning to Rankプラグインの実行に必要なインデックスの内、少なくとも 1 つにプライマリシャードがなく、機能しません。 |