기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
AWS 는 사용자와 협력하여 지표 및 경보를 정의하여 애플리케이션 및 기본 AWS 인프라의 성능에 대한 가시성을 제공합니다. 임계값을 정의하고 구성할 때 경보가 다음 기준을 준수하도록 요청합니다.
경보는 즉각적인 운영자의 주의가 필요한 모니터링되는 워크로드에 심각한 영향(수익 손실 또는 성능이 크게 저하되는 고객 경험 저하)이 있는 경우에만 "경보" 상태로 전환됩니다.
또한 경보는 인시던트 관리 팀을 참여시키는 동시에 또는 참여 전에 워크로드에 대해 지정된 해석기를 참여시켜야 합니다. 인시던트 관리 엔지니어는 완화 프로세스에서 지정된 해석기와 협업해야 하며, 1차 대응 담당자 역할을 하지 않고 에스컬레이션해야 합니다.
경보 임계값을 적절한 임계값 및 기간으로 설정하여 경보가 실행될 때마다 조사를 수행해야 합니다. 경보가 "Alarm" 상태와 "OK" 상태 사이에서 플래핑되는 경우 운영자의 응답과 주의를 끌기에 충분한 영향이 발생합니다.
경보 유형:
비즈니스 영향 수준을 설명하고 간단한 장애 감지를 위해 관련 정보를 전달하는 경보입니다.
Amazon CloudWatch canary. 자세한 내용은 Canary 및 X-Ray 추적과 X-Ray
를 참조하세요. 집계 경보(종속성 모니터링)
다음 표에는 CloudWatch 모니터링 시스템을 사용하는 경보의 예가 나와 있습니다.
지표 이름/경보 임계값 | 경보 ARN 또는 리소스 ID | 이 경보가 실행되는 경우 | 참여하는 경우 이러한 서비스에 대한 Premium Support Case를 자릅니다. |
---|---|---|---|
API 오류/ 10개의 데이터 포인트에 대해 오류 수 >= 10 |
arn:aws:cloudwatch:us-west-2:000000000000:alarm:E2MPmimLambda-Errors |
데이터베이스 관리자(DBA) 팀으로 티켓 자르기 |
Lambda, API 게이트웨이 |
ServiceUnavailable(Http 상태 코드 503) 5분 동안 10개의 데이터 포인트(다른 클라이언트)에 대해 >=3인 오류 수 |
arn:aws:cloudwatch:us-west-2:xxxxx:alarm:httperrorcode503 |
서비스 팀으로 티켓 자르기 |
Lambda, API 게이트웨이 |
ThrottlingException(Http 상태 코드 400) 5분 동안 10개의 데이터 포인트(다른 클라이언트)에 대해 >=3인 오류 수 |
arn:aws:cloudwatch:us-west-2:xxxxx:alarm:httperrorcode400 |
서비스 팀으로 티켓 자르기 |
EC2, Amazon Aurora |
자세한 내용은 AWS 인시던트 감지 및 대응 모니터링 및 관찰성을 참조하세요.
키 출력:
워크로드에 대한 경보의 정의 및 구성입니다.
온보딩 설문에 대한 경보 세부 정보 작성.