감소 MTTD - 가용성과 그 이상: 분산 시스템의 복원력에 대한 이해 및 개선 AWS

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

감소 MTTD

장애를 MTTD 줄인다는 것은 장애를 최대한 빨리 발견하는 것을 의미합니다. 시간을 단축하는 MTTD 것은 관찰 가능성, 즉 워크로드의 상태를 파악하기 위해 워크로드를 계측한 방법을 기반으로 합니다. 고객은 문제 발생 시점을 사전에 식별할 수 있는 방법으로 워크로드의 중요 하위 시스템에서 고객 경험 지표를 모니터링해야 합니다 (부록 1 참조). 이러한 지표에 대한 자세한 내용은 MTTR 중요 지표를 참조하십시오. MTTD ). 고객은 Amazon CloudWatch Synthetics를 사용하여 APIs 사용자 및 콘솔을 모니터링하는 카나리아를 생성하여 사용자 경험을 사전에 측정할 수 있습니다. Elastic Load Balancing (ELB) 상태 확인MTTD, Amazon Route 53 상태 확인 등과 같이 상태를 최소화하는 데 사용할 수 있는 다른 상태 점검 메커니즘도 많이 있습니다. (Amazon Builders' Library - 상태 확인 구현을 참조하세요.)

또한 모니터링을 통해 시스템 전체와 개별 하위 시스템 모두의 부분적 고장을 감지할 수 있어야 합니다. 가용성, 장애 및 지연 시간 지표는 장애 격리 경계의 차원을 지표 차원으로 CloudWatch 사용해야 합니다. 예를 들어 us-east-1 지역의 use1-az1 AZ에 있는 셀 기반 아키텍처의 일부인 단일 EC2 인스턴스가 컨트롤 플레인 하위 시스템의 일부인 워크로드 업데이트의 일부라고 가정해 보겠습니다. API 서버는 메트릭을 푸시할 때 인스턴스 ID, AZ, 지역, 이름 및 하위 시스템 이름을 차원으로 사용할 수 있습니다. API 이를 통해 관찰성을 확보하고 각 차원에 경보를 설정하여 고장을 감지할 수 있습니다.