4단계: 운영 - AWS 규범적 지침

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

4단계: 운영

3단계: 평가 및 테스트를 완료했으면 애플리케이션을 프로덕션에 배포할 준비가 된 것입니다. 운영 단계에서는 애플리케이션을 프로덕션에 배포하고 고객 경험을 관리합니다.  애플리케이션의 설계 및 구현에 따라 많은 레질리언스 결과가 결정되지만, 이 단계에서는 시스템이 복원력을 유지하고 개선하기 위해 사용하는 운영 관행에 중점을 둡니다. 탁월한 운영 문화를 구축하면 이러한 관행의 표준과 일관성을 구축하는 데 도움이 됩니다.

관찰성

고객 경험을 이해하는 데 있어 가장 중요한 부분은 모니터링과 경보를 통한 것입니다. 애플리케이션의 상태를 파악하려면 애플리케이션을 계측해야 하고 다양한 관점이 필요합니다. 즉, 일반적으로 카나리아를 사용하여 서버 측과 클라이언트 측 모두에서 측정해야 합니다. 메트릭에는 장애 격리 경계에 맞는 응용 프로그램 종속성 및 차원과의 상호 작용에 대한 데이터가 포함되어야 합니다. 또한 애플리케이션이 수행하는 모든 작업 단위에 대한 추가 세부 정보를 제공하는 로그를 생성해야 합니다. Amazon CloudWatch 내장 지표 형식과 같은 솔루션을 사용하여 지표와 로그를 결합하는 것을 고려할 수 있습니다. 항상 더 많은 관찰 가능성을 원할 수 있으므로 원하는 수준의 계측을 구현하는 데 필요한 비용, 노력 및 복잡성 절충을 고려하십시오.

다음 링크는 애플리케이션을 계측하고 경보를 생성하는 모범 사례를 제공합니다.

이벤트 관리

알람 (또는 더 나쁜 경우에는 고객) 이 무언가 잘못되고 있다고 알려주었을 때 장애를 처리할 수 있는 이벤트 관리 프로세스를 마련해 두어야 합니다. 이 프로세스에는 대기 중인 상담원 참여, 문제 에스컬레이션, 인적 오류를 제거하는 데 도움이 되는 일관된 문제 해결 방법을 위한 실행 지침서 수립 등이 포함되어야 합니다. 그러나 장애는 일반적으로 단독으로 발생하지 않으므로 단일 애플리케이션이 해당 애플리케이션을 사용하는 다른 여러 애플리케이션에 영향을 미칠 수 있습니다. 영향을 받는 모든 애플리케이션을 이해하고 한 번의 전화 회의를 통해 여러 팀의 운영자를 한데 모아 문제를 신속하게 해결할 수 있습니다. 그러나 조직의 규모와 구조에 따라 이 프로세스에는 중앙 집중식 운영 팀이 필요할 수 있습니다.

이벤트 관리 프로세스를 설정하는 것 외에도 대시보드를 통해 메트릭을 정기적으로 검토해야 합니다. 정기적인 검토를 통해 고객 경험과 애플리케이션 성능의 장기 추세를 이해하는 데 도움이 됩니다. 이를 통해 생산에 심각한 영향을 미치기 전에 문제와 병목 현상을 식별할 수 있습니다. 일관되고 표준화된 방식으로 지표를 검토하면 상당한 이점을 얻을 수 있지만 하향식 동의와 시간 투자가 필요합니다.

다음 링크는 대시보드 구축 및 운영 지표 검토에 대한 모범 사례를 제공합니다.

지속적인 레질리언스

2단계: 설계 및 구현과 3단계: 평가 및 테스트에서 애플리케이션을 프로덕션에 배포하기 전에 검토 및 테스트 활동을 시작했습니다. 운영 단계에서는 프로덕션 환경에서 이러한 활동을 계속 반복해야 합니다. AWS Well-Architected Framework 검토, 운영 준비 상태 검토 (ORR) 및 복원력 분석 프레임워크를 통해 애플리케이션의 복원력 상태를 정기적으로 검토해야 합니다. 이를 통해 애플리케이션이 정해진 기준 및 표준을 벗어나지 않고 신규 또는 업데이트된 지침을 최신 상태로 유지할 수 있습니다. 이러한 지속적인 레질리언스 활동을 통해 이전에는 예상치 못한 장애를 발견하고 새로운 완화 조치를 마련할 수 있습니다.

게임 데이와 카오스 엔지니어링 실험을 사전 제작 환경에서 성공적으로 실행한 후에는 프로덕션 환경에서 진행하는 것도 고려해 볼 수 있습니다. 게임 데이는 완화 차원에서 복원력 메커니즘을 구축한 알려진 이벤트를 시뮬레이션합니다. 예를 들어 게임 데이는 AWS 지역 서비스 장애를 시뮬레이션하고 다중 지역 장애 조치를 구현할 수 있습니다. 이러한 활동을 구현하려면 상당한 노력이 필요할 수 있지만, 두 방법 모두 시스템이 사용자가 견딜 수 있도록 설계된 장애 모드에서도 복원력이 뛰어나다는 확신을 가질 수 있습니다.

애플리케이션을 운영하고, 운영 이벤트를 접하고, 메트릭을 검토하고, 애플리케이션을 테스트하다 보면 대응하고 배울 수 있는 수많은 기회를 만나게 될 것입니다.