View a markdown version of this page

プロアクティブインシデント防止 - AWS DevOps エージェント

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

プロアクティブインシデント防止

AWS DevOps Agent は、インシデント調査全体のパターンを分析し、運用体制を継続的に改善し、将来のインシデントを防ぐターゲットを絞った推奨事項を提供します。Operator Web App の Ops Backlog ページからプロアクティブインシデント防止にアクセスします。

プロアクティブインシデント防止の仕組み

AWS DevOps エージェントは、最近のインシデント調査を評価して、今後のインシデントを防ぎ、平均検出時間 (MTTD) を短縮するための継続的な改善を特定します。エージェントは、複数のインシデントを分析して、将来のインシデントのクラス全体を妨げる可能性のある推奨事項を特定し、最も影響の大きい推奨事項に焦点を当てて、それらが実行可能であることを確認します。

デフォルトでは、エージェントは評価を毎週自動的に実行します。オンデマンドでのみ評価を実行する場合は、スケジュールを一時停止できます。手動評価は常に利用可能であり、最近の調査で推奨される改善を迅速に実施する必要がある場合に役立ちます。

エージェントは、「Ops Backlog」ページの「Recommendation Categorization」チャートに示されている 4 つのカテゴリにわたる改善点を特定します。

  • オブザーバビリティ – モニタリング、アラート、ログ記録、システムの可視性を強化して、問題を迅速かつ正確に検出するための推奨事項。

  • インフラストラクチャ — リソース設定、容量調整、アーキテクチャの耐障害性を最適化するための推奨事項。

  • ガバナンス – デプロイプロセス、パイプラインの改善、テストプラクティス、運用コントロールを強化するための推奨事項。

  • コードの最適化 – アプリケーションコードの品質、エラー処理、コードの耐障害性を向上させるための推奨事項。

この分類は、運用上の改善が最も必要な場所を理解し、チームの重点分野に基づいてレコメンデーションに優先順位を付けるのに役立ちます。

利点

  • 繰り返し発生するインシデントの防止 – 同じタイプの問題に繰り返し対応するのではなく、根本原因に体系的に対処する

  • 運用上の煩雑さの軽減 – チームが反復的な発砲から解放され、イノベーションと戦略的改善に集中できるようになります。

  • システムの耐障害性の向上 – 実際のインシデントデータに基づいてインフラストラクチャ、オブザーバビリティ、デプロイプロセスを強化する

  • 過去のパターンから学ぶ – 過去のインシデントからのインサイトを活用して、最も大きな影響を与えるターゲットを絞った改善を行います。

エージェントの概要

ウェブアプリの Ops Backlog ページのエージェント概要には、最近のインシデントの前回の評価の結果の説明が表示されます。概要では、分析されたインシデント調査の数、過去のインシデントと類似しているインシデント、新しい情報で作成または更新された推奨事項について説明します。

概要は、エージェントが最新の評価中に検出した内容をすばやく理解し、運用体制に最も影響を与える可能性のある最も注目すべき推奨事項を強調するのに役立ちます。

評価の制御

AWS DevOps Agent がインシデントを評価し、レコメンデーションを生成するタイミングを制御できます。

  • 評価を手動で実行する – Ops Backlog ページの Run Now ボタンをクリックして、すぐに評価を開始します。これは、最近の調査で推奨される改善を迅速に実施する必要がある場合に便利です。

  • アクティブな評価の停止 – Ops Backlog ページの評価の停止ボタンをクリックして、現在進行中の評価を停止します。

レコメンデーションの管理

AWS DevOps Agent は、Ops Backlog ページでレコメンデーションを表示および管理できます。

  • レコメンデーションの詳細の表示 – レコメンデーションをクリックしてレコメンデーションの詳細ページを開きます。レコメンデーションの詳細ページには、レコメンデーションに通知したインシデント、予想される影響、次のステップなど、推奨される改善に関する詳細情報が表示されます。コード変更に関する推奨事項については、実装のためにコーディングエージェントに渡すことができるエージェント対応仕様を表示することもできます。

  • キープ — 「キープ」をクリックして、追跡する推奨事項をバックログに保持します。これにより、実装する予定の改善点をモニタリングし、その進捗状況を追跡できます。

  • 破棄 – 「破棄」をクリックして、バックログからレコメンデーションを削除します。レコメンデーションを破棄するときは、その理由を自然言語で説明できます。エージェントは、このフィードバックから学習し、それを使用して将来のレコメンデーションを知らせ、時間の経過とともに運用上の優先順位と要件により合わせるようにします。

  • 実装済み – 「実装済み」をクリックして、レコメンデーションを完了済みとしてマークします。これにより、どの改善が適用されたかを追跡し、エージェントが時間の経過とともにレコメンデーションの有効性を測定できるようになります。

  • 自動削除 – レコメンデーションを実装することで新しいインシデントを防ぐことができなかった場合、約 6 週間後にキープまたは実装としてマークされていないレコメンデーションを削除できます。これにより、Ops Backlog ページは、運用上の課題に最も関連性の高い改善に焦点を当てます。

  • レコメンデーションの更新 – 既存のレコメンデーションは、レコメンデーションによって防止された新しいインシデントが見つかったときに更新されます。更新により、レコメンデーションの優先度が変更されたり、新しいインサイトに基づいてレコメンデーションが絞り込まれたりすることがあります。

エージェント対応仕様

コードまたは設定の変更に関する推奨事項については、 AWS DevOps Agent はエージェント対応仕様を生成できます。この仕様は、実装のためにコーディングエージェントに直接渡すことができる構造化ドキュメントを提供します。

仕様には以下が含まれます。

  • 問題ステートメント – 問題とその根本原因の概要

  • ソリューションの概要 — 推奨されるアプローチの概要の説明

  • ターゲットリポジトリ – 変更が必要な特定のリポジトリ

  • コード変更 – 変更が必要な内容と理由の詳細な説明と、特定のファイルパスと実装に関する考慮事項

  • テスト要件 – テストする必要があるシナリオ

  • 実装計画 – 変更を実装するための段階的なアプローチ

エージェント対応仕様は、コーディングエージェントに本番環境に対応した変更を行うために必要なコンテキストを提供することで、実装を高速化します。エンジニアとの広範なback-and-forthは必要ありません。

レコメンデーションの実装

プロアクティブなインシデント防止レコメンデーションの価値を最大化するには、それらに対応するための以下のプラクティスを検討してください。

  • エージェント対応仕様の使用 – コード変更に関する推奨事項については、生成された仕様を使用して、コーディングエージェントに渡すか、手動実装の詳細なガイドとして使用して実装を高速化します。

  • チケットバックログへのレコメンデーションの追加 – レコメンデーションをチームのチケットシステムまたはプロジェクト管理ツールにコピーして、他のエンジニアリング作業とともに優先されるようにします。

  • 影響に基づいてレコメンデーションを優先する – 最も頻繁または重大なインシデントタイプ、または重要なシステムに影響するインシデントタイプに対応するレコメンデーションに重点を置きます。

  • 実装の進行状況の追跡 – 実装された推奨事項を監視し、同様のインシデントが時間の経過とともに減少するかどうかを観察して、その有効性を測定します。

  • 開発チームとの調整 – 影響を受けるシステムを所有する適切なチームとレコメンデーションを共有し、改善の実装に必要なコンテキストとリソースを確保します。