AWS Systems Manager Incident Manager이란 무엇입니까? - Incident Manager

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

AWS Systems Manager Incident Manager이란 무엇입니까?

AWS Systems Manager의 기능인 Incident Manager는 AWS에서 호스팅 애플리케이션에 영향을 주는 인시던트를 완화하고 복구하는 데 사용할 수 있도록 설계되었습니다.

AWS의 맥락에서 인시던트는 비즈니스 운영에 중대한 영향을 미칠 수 있는 예상치 못한 중단이나 서비스 품질 저하를 말합니다. 따라서 조직은 인시던트를 효율적으로 완화 및 복구하기 위한 대응 전략을 수립하고 향후 인시던트를 예방하기 위한 조치를 취하는 것이 중요합니다.

Incident Manager는 다음과 같은 방법으로 인시던트 해결 시간을 줄이는 데 도움이 됩니다.

  • 인시던트 대응 책임자를 효율적으로 참여시키기 위한 자동화된 계획을 제공합니다.

  • 관련 문제 해결 데이터를 제공합니다.

  • 사전 정의된 자동화 런북을 사용하여 자동 대응 조치를 가능하게 합니다.

  • 모든 이해 관계자와 협업하고 소통할 수 있는 방법을 제공합니다.

Incident Manager에 내장된 기능 및 워크플로는 Amazon이 거의 설립 초기부터 개발해 온 인시던트 대응을 위한 모범 사례를 기반으로 합니다. Incident Manager는 Amazon CloudWatch, AWS CloudTrail, AWS Systems Manager 및 Amazon EventBridge 같은AWS 서비스와 통합됩니다.

기본 구성 요소 및 기능

이 섹션에서는 인시던트 대응 계획을 설정하는 데 사용하는 Incident Manager의 기능에 대해 설명합니다.

대응 계획

대응 계획은 인시던트 발생 시 마련해야 할 사항을 정의하는 템플릿의 역할을 합니다. 여기에는 다음과 같은 정보가 포함됩니다.

  • 인시던트 발생 시 대응해야 하는 담당자.

  • 인시던트를 완화하기 위해 확립된 자동 대응.

  • 대응 담당자가 인시던트에 대해 통신하고 자동 알림을 수신하는 데 사용해야 하는 협업 도구.

인시던트 탐지

AWS 리소스에 영향을 미치는 조건 또는 변경 사항이 감지된 경우 인시던트를 생성하도록 Amazon CloudWatch 경보와 Amazon EventBridge 이벤트를 구성할 수 있습니다.

자동화 런북 지원

Incident Manager 내에서 자동화 런북을 시작하여 인시던트에 대한 중요한 대응을 자동화하고 최초 대응 담당자에게 세부 단계를 제공할 수 있습니다.

참여 및 에스컬레이션

참여 계획에는 각 개별 인시던트에 대해 모든 사람에게 알리도록 명시되어 있습니다. Incident Manager에 추가한 개별 연락처를 지정하거나 Incident Manager에서 만든 대기 일정을 지정할 수 있습니다. 또한 참여 계획에는 에스컬레이션 경로가 지정되어 있어 이해 관계자가 상황을 파악하고 인시던트 대응 프로세스에 적극적으로 참여할 수 있습니다.

대기 일정

Incident Manager의 대기 일정은 해당 일정에 대해 생성한 하나 이상의 교대로 구성됩니다. 각 교대에 최대 30명의 연락처를 포함할 수 있습니다. 에스컬레이션 계획이나 대응 계획에 추가할 경우, 대기 일정은 대응 담당자의 개입이 필요한 인시던트 발생 시 알림을 받는 사람을 정의합니다. 대기 일정을 통해 인시던트 대응에 필요한 만큼 완전하고 중복된 연중무휴 지원을 받을 수 있습니다.

적극적인 협업

인시던트 대응 담당자는 AWS Chatbot 클라이언트와의 통합을 통해 인시던트에 능동적으로 대응합니다. AWS Chatbot는 Slack, Microsoft Teams, 또는 Amazon Chime을 사용하는 Incident Manager를 위한 채팅 채널 만들기를 지원합니다. 대응 담당자는 서로 직접 통신하고, 인시던트에 대한 자동 알림을 수신하고, Slack 및 Microsoft Teams에서 일부 Incident Manager CLI(명령줄 인터페이스) 작업을 직접 실행할 수 있습니다.

인시던트 진단

대응 담당자는 인시던트 발생 중에 Incident Manager 콘솔에서 최신 정보를 볼 수 있습니다. 정보 변경에 따라 대응 담당자는 후속 조치를 만들고 자동화 런북을 사용하여 문제를 해결할 수 있습니다.

다른 서비스의 조사 결과

대응 담당자의 인시던트 진단을 지원하기 위해 Incident Manager에서 조사 결과 기능을 활성화할 수 있습니다. 조사 결과는 인시던트 발생 시기에 발생했으며 인시던트와 관련이 있을 가능성이 있는 하나 이상의 리소스가 포함된 AWS CodeDeploy 배포 및 AWS CloudFormation 스택 업데이트에 대한 정보입니다. 이 정보가 있으면 잠재적 원인을 평가하는 데 필요한 시간이 줄어들어 인시던트의 평균 복구 시간(MTTR)을 줄일 수 있습니다.

인시던트 사후 분석

인시던트가 해결된 후 인시던트는 인시던트 사후 분석을 사용하여 탐지 시간 및 완화를 포함한 인시던트 대응에 대한 개선 사항을 식별합니다. 분석을 통해 인시던트의 근본 원인을 이해하는 데도 도움이 될 수 있습니다. Incident Manager는 인시던트 대응을 개선하는 데 사용할 수 있는 권장 후속 조치 항목을 생성합니다.

Incident Manager 사용의 이점

인시던트 탐지 및 대응 작업에서 Incident Manager를 사용하는 경우 얻을 수 있는 이점에 대해 알아봅니다.

이 섹션에서는 Incident Manager 대응 계획을 구현할 때 조직이 얻을 수 있는 이점에 대해 설명합니다.

문제를 효율적이고 즉각적으로 진단합니다.

구성한 Amazon CloudWatch 경보 및 Amazon EventBridge 이벤트는 예상치 못한 중단이나 서비스 품질 저하가 발생할 경우 자동으로 인시던트를 생성할 수 있습니다.

CloudWatch 경보는 여러 기간 동안 임계값과 지표 또는 표현식 값이 변경되는 경우 이를 감지하고 보고합니다. EventBridge 이벤트는 EventBridge 규칙에 지정한 환경, 애플리케이션 또는 서비스가 변경되면 생성됩니다. 경보 또는 이벤트를 생성할 때 Incident Manager에서 생성할 인시던트에 대한 조치와 적절한 대응 계획을 지정하여 인시던트의 참여, 에스컬레이션 및 완화를 촉진할 수 있습니다.

Incident Manager는 CloudWatch 지표를 사용하여 인시던트와 관련된 지표를 자동으로 수집하고 추적하는 기능을 제공합니다. CloudWatch 경보를 통해 인시던트를 생성할 때 인시던트에 대해 생성된 자동 지표 외에도 실시간으로 지표를 수동으로 추가하여 인시던트 대응 담당자에게 추가 컨텍스트와 데이터를 제공할 수 있습니다.

Incident Manager 인시던트 타임라인을 사용하여 관심 지점을 시간순으로 표시할 수 있습니다. 또한 대응 담당자는 타임라인을 사용하여 자신이 무엇을 했는지 또는 무슨 일이 일어났는지 설명하는 사용자 지정 이벤트를 추가할 수 있습니다. 자동화된 관심 지점에는 다음이 포함됩니다.

  • CloudWatch 경보 또는 EventBridge 규칙이 인시던트를 생성합니다.

  • 인시던트 지표는 Incident Manager에게 보고됩니다.

  • 대응 담당자들이 참여하고 있습니다.

  • 런북 단계가 성공적으로 완료되었습니다.

효과적인 참여

Incident Manager는 연락처, 대기 일정, 에스컬레이션 계획 및 채팅 채널을 사용하여 인시던트 대응 담당자를 하나로 모읍니다. Incident Manager에서 직접 개별 연락처를 정의하고 연락처 기본 설정(이메일, SMS 또는 음성)을 지정합니다. 대기 일정 교대에 연락처를 추가하여 지정된 기간 동안 인시던트 처리에 관여하는 사람을 결정할 수 있습니다. 정의된 연락처와 대기 일정을 사용하여 에스컬레이션 계획을 세워 인시던트 발생 시 필요한 대응 인력을 적시에 배치할 수 있습니다.

실시간 공동 작업

인시던트 발생 시 커뮤니케이션은 신속한 해결의 핵심입니다. Slack, Microsoft Teams 또는 Amazon Chime을 사용하도록 설정된 AWS Chatbot 클라이언트를 사용하면 선호하는 연결 채팅 채널에 대응 담당자를 모아 인시던트 및 다른 사람과 직접 상호 작용할 수 있습니다. 또한 Incident Manager는 채팅 채널에 인시던트 대응 담당자의 실시간 작업을 표시하여 다른 사람에게 컨텍스트를 제공합니다.

서비스 복원 자동화

Incident Manager를 사용하면 대응 담당자가 자동화 런북을 사용하여 인시던트를 해결하는 데 필요한 주요 작업에 집중할 수 있습니다. Incident Manager에서 런북은 인시던트를 해결하기 위해 취해진 사전 정의된 일련의 조치입니다. 자동화된 작업의 기능과 필요에 따른 수동 단계를 결합하여 대응 담당자가 영향을 분석하고 이에 대응할 수 있는 역량을 강화할 수 있습니다.

향후 인시던트 예방

Incident Manager를 사용하여 인시던트 분석을 게시하면 팀에서 보다 강력한 대응 계획을 개발하고 애플리케이션 전반에 변경 사항을 적용하여 향후 인시던트 및 가동 중지 시간을 방지할 수 있습니다. 또한 인시던트 사후 분석을 통해 런북, 대응 계획 및 지표를 반복적으로 학습하고 개선할 수 있습니다.

Incident Manager는 여러 기타 AWS 서비스 및 타사 서비스 및 도구와 통합되어 인시던트를 탐지 및 해결하고 API 운영과 간접적으로 상호 작용하며 인프라를 관리할 수 있도록 지원합니다. 자세한 내용은 Incident Manager와 제품 및 서비스 통합을 참조하세요.

Incident Manager 액세스

다음 방법 중 하나를 사용하여 Incident Manager에 액세스할 수 있습니다.

Incident Manager 리전 및 할당량

Systems Manager에서 지원하는 모든 AWS 리전에서 Incident Manager를 지원하는 것은 아닙니다.

Incident Manager 리전 및 할당량에 대한 자세한 내용은 Amazon Web Services 일반 참조AWS Systems Manager Incident Manager 엔드포인트 및 할당량을 참조하세요.

Incident Manager 요금

Incident Manager를 사용하면 사용료가 부과됩니다. 자세한 내용은 AWS Systems Manager 가격을 참조하세요.

참고

이 서비스와 관련하여 제공되는 기타 AWS 서비스, AWS 콘텐츠 및 제3자 콘텐츠에는 별도의 요금이 부과될 수 있으며 추가 약관이 적용될 수 있습니다.

AWS 환경에서의 비용과 보안, 성능 최적화를 돕는 Trusted Advisor의 개요는 AWS Support 사용 설명서AWS Trusted Advisor를 참조하세요.