장단점 및 위험에 대한 이해

레질리언스 아키텍처는 잘 테스트되고 간단하며 신뢰할 수 있는 몇 가지 메커니즘을 사용하여 장애에 대응해야 합니다. 최고 수준의 복원력을 달성하려면 워크로드가 최대한 많은 장애 모드를 자동으로 감지하고 복구해야 합니다. 이를 위해서는 복원력 분석을 수행하기 위한 광범위한 투자가 필요합니다. 즉, 복원력 수준을 높이려면 절충해야 합니다. 하지만 트레이드 오프를 계속하다 보면 회복력 목표에 비해 수익이 감소하는 지점에 도달하게 됩니다. 가장 일반적인 장단점은 다음과 같습니다.

비용 — 중복된 구성 요소, 향상된 관찰 가능성, 추가 도구 또는 리소스 활용률 증가로 인해 비용이 증가합니다.
시스템 복잡성 — 완화 솔루션을 포함하여 장애 모드를 감지하고 이에 대응하고 관리형 서비스를 사용하지 않을 경우 시스템 복잡성이 증가합니다.
엔지니어링 노력 — 장애 모드를 감지하고 이에 대응하기 위한 솔루션을 구축하려면 개발자 시간이 추가로 필요합니다.
운영 오버헤드 — 더 많은 장애 모드를 처리하는 시스템을 모니터링하고 운영하면 운영 오버헤드가 증가할 수 있습니다. 특히 관리형 서비스를 사용하여 특정 장애 모드를 완화할 수 없는 경우에는 더욱 그렇습니다.
지연 시간 및 일관성 — 가용성에 유리한 분산 시스템을 구축하려면 PACELC 정리에 설명된 대로 일관성과 지연 시간을 절충해야 합니다.

절충점을 바탕으로 복원력 목표를 달성할 확률 (수익이 감소하는 지점에 도달함)

사용자 사례에서 식별된 장애 모드의 완화 방법을 고려하면서 절충해야 할 사항도 생각해 보세요. 보안과 마찬가지로 복원력도 최적화 문제입니다. 식별된 장애로 인한 위험을 방지, 완화, 이전 또는 수용할지 여부를 결정해야 합니다. 피할 수 있는 장애 모드도 있고, 승낙하는 모드도 있고, 이전할 수 있는 장애 모드도 몇 개 있을 수 있습니다. 파악한 여러 장애 모드를 완화하는 방법을 선택할 수도 있습니다. 어떤 접근 방식을 취해야 할지 결정하려면 다음 두 가지 질문을 통해 평가를 수행하십시오. 장애가 발생할 가능성은 얼마나 됩니까? 문제가 발생할 경우 워크로드에 미치는 영향은 무엇입니까?

가능성은 이벤트가 발생할 가능성이 얼마나 높은지를 나타냅니다. 예를 들어 사용자 스토리에 단일 Amazon Elastic Compute Cloud (Amazon EC2) 인스턴스에서 작동하는 구성 요소가 있는 경우 패치 절차 또는 운영 체제 오류로 인해 시스템 운영 중 특정 시점에서 구성 요소가 중단될 수 있습니다. 또는 기본 인스턴스와 보조 인스턴스 간에 데이터를 동기화하는 Amazon RDS (Amazon RDS) 에서 관리하는 데이터베이스를 완전히 사용할 수 없게 될 가능성은 낮습니다.

영향은 이벤트로 인해 발생할 수 있는 피해의 추정치입니다. 재무 및 평판 측면에서 모두 평가해야 하며, 영향을 미치는 사용자 스토리의 가치와 관련이 있습니다. 예를 들어, 데이터베이스가 과부하되면 전자 상거래 시스템의 신규 주문 접수 능력에 중대한 영향을 미칠 수 있습니다. 하지만 로드 밸런서 뒤에 있는 20개의 인스턴스 중 단일 인스턴스가 손실되더라도 영향은 거의 없을 것입니다.

이러한 질문에 대한 답을 위험을 줄이기 위해 절충해야 하는 비용과 비교해 볼 수 있습니다. 위험 임계값과 복원력 목표를 고려하여 이 정보를 고려하면 적극적으로 완화하려는 장애 모드를 결정하는 데 도움이 됩니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

잠재적 장애 완화

장애 모드 관찰 가능성