AWS 인시던트 감지 및 대응 모니터링 및 관찰성

포커스 모드

AWS 인시던트 감지 및 대응 모니터링 및 관찰성 - AWS 인시던트 감지 및 대응 사용 설명서

AWS Incident Detection and Response는 애플리케이션 계층에서 기본 인프라에 이르기까지 워크로드 전반의 관찰 가능성을 정의하는 방법에 대한 전문가 지침을 제공합니다. 모니터링은 문제가 있음을 알려줍니다. 관찰성은 데이터 수집을 사용하여 무엇이 잘못되었는지, 왜 발생했는지 알려줍니다.

인시던트 감지 및 대응 시스템은 Amazon CloudWatch 및 Amazon EventBridge와 같은 네이티브 AWS 서비스를 활용하여 AWS 워크로드에 영향을 미칠 수 있는 이벤트를 감지하여 워크로드의 장애 및 성능 저하를 모니터링합니다. 모니터링은 임박한, 지속적인, 후퇴하는 또는 잠재적 장애 또는 성능 저하에 대한 알림을 제공합니다. 계정을 인시던트 감지 및 대응에 온보딩할 때 인시던트 감지 및 대응 모니터링 시스템에서 모니터링해야 하는 계정의 경보를 선택하고 이러한 경보를 인시던트 관리 중에 사용되는 애플리케이션 및 런북과 연결합니다.

인시던트 감지 및 대응은 Amazon CloudWatch 및 기타 AWS 서비스 를 사용하여 관찰성 솔루션을 구축합니다. AWS Incident Detection and Response는 두 가지 방법으로 관찰성을 제공합니다.

비즈니스 성과 지표: AWS 인시던트 감지 및 대응에 대한 관찰성은 워크로드 또는 최종 사용자 경험의 결과를 모니터링하는 주요 지표를 정의하는 것으로 시작됩니다. AWS 전문가는 사용자와 협력하여 워크로드의 목표, 사용자 경험에 영향을 미칠 수 있는 주요 출력 또는 요인을 이해하고 이러한 주요 지표에서 성능 저하를 캡처하는 지표 및 알림을 정의합니다. 예를 들어 모바일 통화 애플리케이션의 주요 비즈니스 지표는 통화 설정 성공률(사용자 통화 시도 성공률 모니터링)이고 웹 사이트의 주요 지표는 페이지 속도입니다. 인시던트 참여는 비즈니스 성과 지표를 기반으로 트리거됩니다.
인프라 수준 지표:이 단계에서는 애플리케이션을 지원하는 기본 AWS 서비스 및 인프라를 식별하고 지표와 경보를 정의하여 이러한 인프라 서비스의 성능을 추적합니다. 여기에는 Application Load Balancer 인스턴스ApplicationLoadBalancerErrorCount와 같은 지표가 포함될 수 있습니다. 워크로드가 온보딩되고 모니터링이 설정된 후에 시작됩니다.

AWS 인시던트 감지 및 대응에 대한 관찰성 구현

관찰성은 한 번의 연습 또는 기간으로 완료할 수 없는 지속적인 프로세스이므로 AWS Incident Detection and Response는 두 단계로 관찰성을 구현합니다.

온보딩 단계: 온보딩 중 관찰성은 애플리케이션의 비즈니스 성과가 저하되는 시점을 감지하는 데 중점을 둡니다. 이를 위해 온보딩 단계 중 관찰성은 애플리케이션 계층에서 주요 비즈니스 성과 지표를 정의하여 워크로드 AWS 중단을 알리는 데 중점을 둡니다. 이렇게 하면 이러한 중단에 신속하게 대응하고 복구에 도움이 될 AWS 수 있습니다.
온보딩 후 단계: AWS Incident Detection and Response는 인프라 수준 지표의 정의, 지표 튜닝, 고객의 성숙도에 따른 추적 및 로그 설정 등 관찰성을 위한 다양한 사전 예방 서비스를 제공합니다. 이러한 서비스의 구현은 몇 달에 걸쳐 진행될 수 있으며 여러 팀이 참여할 수 있습니다. AWS Incident Detection and Response는 관찰성 설정에 대한 지침을 제공하며 고객은 워크로드 환경에서 필요한 변경 사항을 구현해야 합니다. 관찰 기능 실습 구현에 도움이 필요하면 기술 계정 관리자(TAMs에게 요청을 제출하세요.