알림 정책 - Amazon Managed Grafana

알림 정책

이 설명서 주제는 Grafana 버전 10.x를 지원하는 Grafana 워크스페이스를 위해 설계되었습니다.

Grafana 버전 9.x를 지원하는 Grafana 워크스페이스의 경우 Grafana 버전 9에서 작업 섹션을 참조하세요.

Grafana 버전 8.x를 지원하는 Grafana 워크스페이스의 경우 Grafana 버전 8에서 작업 섹션을 참조하세요.

알림 정책은 다양한 수신자에게 알림을 라우팅하는 유연한 방법을 제공합니다. 레이블 매처를 사용하면 모든 개별 알림 규칙을 업데이트할 필요 없이 알림 전송을 수정할 수 있습니다.

이 섹션에서는 알림 정책 설정을 최대한 활용할 수 있도록 알림 정책이 작동하고 구조화되는 방식을 자세히 알아봅니다.

정책 트리

알림 정책은 목록이 아니라 트리 구조에 따라 구조화됩니다. 즉, 각 정책에 하위 정책 등이 있을 수 있습니다. 알림 정책 트리의 루트를 기본 알림 정책이라고 합니다.

각 정책은 처리에 관심이 있거나 없는 레이블을 지정하는 레이블 매처 세트(0개 이상)로 구성됩니다.

레이블 일치에 대한 자세한 내용은 레이블 일치 작동 방식 섹션을 참조하세요.

참고

알림 정책에 대해 레이블 매처를 구성하지 않은 경우 알림 정책은 모든 알림 인스턴스와 일치합니다. 이렇게 하면 알림 정책에서 형제 연속 매칭을 활성화하지 않은 한 하위 정책이 평가되지 않을 수 있습니다.

라우팅

어떤 알림 정책이 어떤 알림 인스턴스를 처리할지 결정하려면 먼저 기본 알림 정책부터 시작하여 기존 알림 정책 세트를 살펴봐야 합니다.

기본 정책 이외의 정책이 구성되지 않은 경우 기본 정책이 알림 인스턴스를 처리합니다.

기본 정책 이외의 정책이 정의된 경우 표시되는 순서대로 해당 알림 정책을 평가합니다.

알림 정책에 알림 인스턴스의 레이블과 일치하는 레이블 매처가 있는 경우 하위 정책으로 내려갑니다. 그리고 있는 경우 레이블 세트 범위를 더 좁히는 레이블 매처가 있을 수 있는 하위 정책을 계속 찾으며, 더 이상 하위 정책이 발견되지 않을 때까지 이 작업을 계속합니다.

알림 정책에 하위 정책이 정의되지 않았거나 하위 정책 중 하나에도 알림 인스턴스의 레이블과 일치하는 레이블 매처가 없는 경우 상위 알림 정책이 사용됩니다.

일치하는 정책을 찾으면 시스템에서 다른 일치하는 정책을 계속 찾지 않습니다. 일치하는 다른 정책을 계속 찾으려면 해당 특정 정책에서 형제 연속 매칭을 활성화합니다.

마지막으로 알림 정책을 선택하지 않으면 기본 알림 정책이 사용됩니다.

라우팅 예제

다음은 비교적 간단한 알림 정책 트리와 일부 알림 인스턴스 예제입니다.

트리 구조의 알림 정책 세트와 정책과 일치시킬 레이블이 서로 다른 알림 인스턴스 세트를 보여주는 이미지.

다음은 이러한 정책을 선택하는 방법에 대한 자세한 정보입니다.

CrashLoop에서 멈춘 포드에는 severity 레이블이 없으므로 일치하는 하위 정책이 없습니다. team=operations 레이블이 있으므로 첫 번째 정책이 일치합니다.

일치 항목을 이미 찾았고 해당 정책에 대해 형제 연속 매칭이 구성되지 않았으므로 team=security 정책은 평가되지 않습니다.

디스크 사용량 - 80%에는 teamseverity 레이블이 모두 있으며 운영 팀의 하위 정책과 일치합니다.

권한 부여되지 않은 로그 항목에는 team 레이블이 있지만 값이 동일하지 않으므로 첫 번째 정책(team=operations)과 일치하지 않습니다. 따라서 계속 검색하고 team=security 정책과 일치시킵니다. 하위 정책이 없으므로 추가 severity=high 레이블은 무시됩니다.

상속

하위 정책은 알림 인스턴스를 라우팅하는 데 유용한 개념일 뿐만 아니라 상위 정책에서 속성도 상속합니다. 이는 기본 알림 정책의 하위 정책에 해당하는 모든 정책에도 적용됩니다.

다음 속성은 하위 정책에 의해 상속됩니다.

  • 연락 지점

  • 그룹화 옵션

  • 타이밍 옵션

  • 음소거 타이밍

상속된 속성을 재정의하려는 경우 이러한 각 속성을 개별 정책으로 덮어쓸 수 있습니다.

상위 정책에서 연락 지점을 상속하려면 비워 둡니다. 상속된 그룹화 옵션을 재정의하려면 그룹화 재정의를 활성화합니다. 상속된 타이밍 옵션을 재정의하려면 일반 타이밍 재정의를 활성화합니다.

상속 사례

아래 예제에서는 이전 예제의 알림 정책 트리가 team=operations의 하위 정책이 해당 연락 지점을 상속하도록 허용하는 방법을 보여줍니다.

이 방식에서는 각 하위 정책에 동일한 연락 지점을 여러 번 지정하지 않아도 됩니다.

트리 구조의 알림 정책 세트를 보여주는 이미지. 여기에서 일부 정책에는 연락 지점이 할당되지만 일부 하위 정책에서는 자체 연락 지점을 정의하는 대신 상위의 연락 지점이 상속됩니다.

추가 구성 옵션

그룹화

그룹화는 관련 알림을 더 적은 수의 알림으로 배치 처리할 수 있으므로 Grafana 알림의 중요한 기능입니다. 엔지니어 긴급 대기 상황과 같이 응급 대원에게 알림이 전달되는 경우 특히 중요합니다. 이 경우 짧은 시간 안에 많은 알림을 받으면 효과적 대응이 어려울 수 있으며, 경우에 따라 응급 대원이 인시던트에 대응하는 능력에 부정적인 영향을 미칠 수 있습니다. 예를 들어 많은 시스템이 중단된 대규모 가동 중지를 살펴봅니다. 이 경우 그룹화를 사용하면 100개의 통화 수신 및 1개의 통화 수신과 같은 차이가 나타날 수 있습니다.

알림 정책에서 그룹화 기준 옵션을 사용하여 알림을 그룹화하는 방법을 선택합니다. 기본적으로 Grafana 그룹의 알림 정책은 alertnamegrafana_folder 레이블을 사용하여 알림 규칙으로 함께 알립니다(알림 이름은 여러 폴더에서 고유하지 않기 때문). 알림 규칙 이외의 다른 방법으로 알림을 그룹화하려면 그룹화를 레이블의 다른 조합으로 변경합니다.

그룹 비활성화

모든 알림을 별도의 알림으로 수신하려면 ...이라는 특수 레이블로 그룹화하여 수신할 수 있습니다. 응급 대원이 아니라 자동화된 시스템으로 알림이 전달되는 경우에 유용합니다.

모든 알림에 대한 단일 그룹

단일 알림으로 모든 알림을 함께 수신하려면 그룹화 기준을 비워두면 됩니다.

타이밍 옵션

타이밍 옵션은 각 알림 그룹에 대해 알림을 보내는 빈도를 결정합니다. 알아야 할 세 가지 타이머는 그룹 대기, 그룹 간격, 반복 간격입니다.

그룹 대기

그룹 대기는 Grafana에서 새 알림 그룹에 대한 첫 번째 알림을 보내기 전에 대기하는 시간입니다. 그룹 대기 시간이 길수록 다른 알림이 도착하는 시간이 길어집니다. 그룹 대기 시간이 짧을수록 첫 번째 알림이 더 빨리 전송되지만 불완전한 알림이 전송될 위험이 있습니다. 항상 사용 사례에 가장 적합한 그룹 대기를 선택해야 합니다.

기본값 30초

그룹 간격

새 알림 그룹에 대한 첫 번째 알림이 전송되면 Grafana에서는 그룹 간격 타이머를 시작합니다. 그룹 변경 사항에 대한 알림을 보내기 전에 Grafana에서 대기하는 시간입니다. 예를 들어 기존 알림이 해결되었을 수 있는 동안 다른 실행 알림이 그룹에 방금 추가되었을 수 있습니다. 그룹 대기로 인해 알림이 너무 지연되어 첫 번째 알림에 포함될 수 없는 경우 그룹 간격이 경과한 후 후속 알림에 포함됩니다. 그룹 간격이 경과하면 Grafana에서는 그룹 간격 타이머를 재설정합니다. 그룹이 삭제된 후 그룹에 더 이상 알림이 없을 때까지 반복됩니다.

기본값 5분

반복 간격

반복 간격에서는 마지막 알림 이후 그룹이 변경되지 않은 경우 알림이 반복되는 빈도를 결정합니다. 이를 일부 알림이 여전히 실행 중임을 나타내는 미리 알림이라고 생각할 수 있습니다. 반복 간격은 그룹 간격과 밀접한 관련이 있습니다. 즉, 반복 간격은 그룹 간격 이상이어야 하며 그룹 간격의 배수이기도 해야 합니다. 반복 간격이 그룹 간격의 배수가 아닌 경우 하나로 강제 적용됩니다. 예를 들어 그룹 간격이 5분이고 반복 간격이 9분인 경우 반복 간격은 5의 가장 가까운 배수인 10분으로 반올림됩니다.

기본값 4시간