OPS08-BP04 실행 가능한 알림 생성 - 운영 우수성 원칙

OPS08-BP04 실행 가능한 알림 생성

애플리케이션 동작의 편차를 즉시 감지하고 이에 대응하는 것이 중요합니다. 특히 중요한 것은 핵심 성과 지표(KPI)를 기반으로 한 결과가 위험에 처하거나 예상치 못한 이상 현상이 발생할 때를 인식하는 것입니다. KPI에 기반한 알림을 통해 수신되는 신호가 비즈니스 또는 운영상의 영향과 직접 연계되도록 할 수 있습니다. 실행 가능한 알림에 대한 이러한 접근 방식은 사전 대응을 촉진하고 시스템 성능 및 신뢰성을 유지하는 데 도움이 됩니다.

원하는 성과: 특히 KPI 결과가 위험할 때 잠재적 문제를 신속하게 식별하고 완화할 수 있도록 시기적절하고 실행 가능한 알림을 받을 수 있습니다.

일반적인 안티 패턴:

  • 중요하지 않은 알림을 너무 많이 설정하여 알림으로 인한 피로가 발생합니다.

  • KPI에 따라 알림의 우선순위를 정하지 않아 문제가 비즈니스에 미치는 영향을 파악하기 어렵습니다.

  • 근본 원인 해결을 소홀히 하여 동일한 문제에 대해 반복적인 알림이 발생합니다.

이 모범 사례 확립의 이점:

  • 실행 가능하고 관련성이 높은 알림에 집중하여 알림 피로가 줄어듭니다.

  • 사전 예방적 문제 감지 및 완화를 통해 시스템 가동 시간 및 신뢰성을 개선했습니다.

  • 널리 사용되는 알림 및 커뮤니케이션 도구와 통합하여 팀 협업을 강화하고 문제를 더 빠르게 해결합니다.

이 모범 사례가 확립되지 않을 경우 노출되는 위험 수준: 높음

구현 가이드

효과적인 알림 메커니즘을 만들려면 KPI를 기반으로 한 결과가 위험에 처하거나 이상 징후가 감지될 때 플래그를 표시하는 지표, 로그 및 추적 데이터를 사용하는 것이 중요합니다.

구현 단계

  1. 핵심 성과 지표(KPI) 결정: 애플리케이션의 KPI를 식별합니다. 알림을 이러한 KPI와 연계하여 비즈니스에 미치는 영향을 정확하게 반영해야 합니다.

  2. 이상 감지 구현:

    • Amazon CloudWatch 이상 탐지 사용: 비정상적인 패턴을 자동으로 탐지하도록 Amazon CloudWatch 이상 탐지를 설정하면 실제 이상 징후가 있을 때만 알림을 생성할 수 있습니다.

    • AWS X-Ray 인사이트 사용:

      1. X-Ray Insights를 설정하여 추적 데이터에서 이상을 감지합니다.

      2. 탐지된 문제에 대해 알림을 받을 수 있도록 X-Ray Insights에 대한 알림을 구성합니다.

    • Amazon DevOps Guru 통합:

      1. Amazon DevOps Guru의 기계 학습 기능을 활용하여 기존 데이터로 운영 이상 징후를 탐지합니다.

      2. DevOps Guru의 알림 설정으로 이동하여 이상 알림을 설정합니다.

  3. 실행 가능한 알림 구현: 즉각적인 조치를 위한 적절한 정보를 제공하는 알림을 설계합니다.

    1. Amazon EventBridge 규칙을 사용하여 AWS Health 이벤트를 모니터링하거나 AWS Health API와 프로그래밍 방식으로 통합하여 AWS Health 이벤트를 수신할 때 작업을 자동화합니다. 이러한 작업은 계획된 모든 수명 주기 이벤트 메시지를 채팅 인터페이스로 보내는 것과 같은 일반적인 작업이거나 IT 서비스 관리 도구에서 워크플로를 시작하는 것과 같은 구체적인 작업일 수 있습니다.

  4. 알림 피로 감소: 중요하지 않은 알림을 최소화합니다. 대수롭지 않은 알림으로 팀이 부담을 느끼면 중요한 문제를 감독하지 못할 수 있고 결과적으로 알림 메커니즘의 전반적인 효율성이 떨어질 수 있습니다.

  5. 복합 경보 설정: Amazon CloudWatch 복합 경보를 사용하여 여러 경보를 통합합니다.

  6. 알림 도구와 통합: Ops GeniePagerDuty와 같은 도구를 통합합니다.

  7. AWS Chatbot 참여: AWS Chatbot을 통합하여 Amazon Chime, Microsoft Teams, Slack에 알림을 전달합니다.

  8. 로그 기반 알림: CloudWatch의 로그 지표 필터를 사용하여 특정 로그 이벤트를 기반으로 경보를 생성합니다.

  9. 검토 및 반복: 알림 구성을 정기적으로 재검토하고 개선합니다.

구현 계획의 작업 수준: 중간

리소스

관련 모범 사례:

관련 문서:

관련 비디오:

관련 예제: