AWS は、アプリケーションとその基盤となる AWS インフラストラクチャのパフォーマンスを可視化するため、お客様と協力してメトリクスとアラームを定義します。しきい値を定義および設定する際は、アラームが次の基準に準拠する必要があります。
アラームは、モニタリング対象のワークロードに重大な影響 (収益の損失またはパフォーマンスを大幅に低下させるカスタマーエクスペリエンスの低下) があり、オペレーターによる即時の注意が必要な場合にのみ「Alarm」状態になります。
また、アラームは、インシデント管理チームを関与させると同時に、または関与させる前に、ワークロード向けに指定したリゾルバーを関与させる必要があります。インシデント管理エンジニアは、緩和プロセスでお客様が指定したリゾルバーと連携しますが、エスカレーションする第一線の応答者としては機能しません。
アラームのしきい値は、アラームが発生したときに調査が行われるように、適切なしきい値と期間に設定する必要があります。アラームが「Alarm」状態と「OK」状態の間でフラッピングしている場合、オペレーターの応答と注意を必要とする十分な影響が発生しています。
アラームのタイプ:
ビジネスへの影響のレベルを示し、単純な障害検出のために関連情報を渡すアラーム。
Amazon CloudWatch canary。詳細については、「Canary と X-Ray のトレース」および「X-Ray
」を参照してください。 アラームの集計 (依存関係のモニタリング)
次の表に、CloudWatch モニタリングシステムを使用した、アラームの例を示します。
メトリクス名/アラームしきい値 | アラームの ARN またはリソース ID | このアラームが発生した場合 | 関与が認められる場合、プレミアムサポートケースを発行するサービス |
---|---|---|---|
API エラー/ エラー数 >= 10 個のデータポイントで 10 回 |
arn:aws:cloudwatch:us-west-2:000000000000:alarm:E2MPmimLambda-Errors |
データベース管理者 (DBA) チームにチケットを提出 |
Lambda、API Gateway |
ServiceUnavailable (Http ステータスコード 503) エラー数 >= 5 分間で 10 個のデータポイントで 3 回 (異なるクライアント) |
arn:aws:cloudwatch:us-west-2:xxxxx:alarm:httperrorcode503 |
サービスチームにチケットを提出 |
Lambda、API Gateway |
ThrottlingException (Http ステータスコード 400) エラー数 >= 5 分間で 10 個のデータポイントで 3 回 (異なるクライアント) |
arn:aws:cloudwatch:us-west-2:xxxxx:alarm:httperrorcode400 |
サービスチームにチケットを提出 |
EC2、Amazon Aurora |
詳細については、AWS Incident Detection and Response のモニタリングとオブザーバビリティを参照してください。
重要なアウトプット:
ワークロードのアラームの定義と設定。
オンボーディングアンケートにアラームの詳細を入力します。