증가 MTBF - 가용성과 그 이상: 분산 시스템의 복원력에 대한 이해 및 개선 AWS

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

증가 MTBF

가용성 향상의 마지막 구성 요소는 를 높이는 MTBF 것입니다. 이는 소프트웨어와 이를 실행하는 데 사용된 AWS 서비스 모두에 적용될 수 있습니다.

분산 시스템 확대 MTBF

이를 늘리는 MTBF 한 가지 방법은 소프트웨어의 결함을 줄이는 것입니다. 이를 달성하는 데는 몇 가지 방법이 있습니다. 고객은 Amazon CodeGuru Reviewer와 같은 도구를 사용하여 일반적인 오류를 찾아 수정할 수 있습니다. 또한 소프트웨어를 프로덕션에 배포하기 전에 포괄적인 피어 코드 검토, 유닛 테스트, 통합 테스트, 회귀 테스트, 소프트웨어 부하 테스트 등을 수행해야 합니다. 테스트에서 코드 적용 범위를 늘리면 흔하지 않은 코드 실행 경로도 테스트할 수 있습니다.

작은 변경 내용을 배포하는 것도 변경의 복잡성을 줄여 예상치 못한 결과를 방지하는 데 도움이 될 수 있습니다. 각 활동을 통해 문제가 발생하기 전에 결함을 식별하고 수정할 수 있습니다.

고장을 예방하는 또 다른 방법은 정기적인 테스트입니다. 카오스 엔지니어링 프로그램을 구현하면 워크로드 고장 방식을 테스트하고, 복구 절차를 검증하고, 프로덕션 환경에서 고장이 발생하기 전에 고장 모드를 찾아 수정하는 데 도움이 될 수 있습니다. 고객은 카오스 엔지니어링 실험 도구 세트의 일부로 AWS Fault Injection Simulator를 사용할 수 있습니다.

내결함성은 분산 시스템에서 고장을 방지하는 또 다른 방법입니다. 빠른 실패 모듈, 지수 백오프 및 지터가 발생하는 재시도, 트랜잭션, 멱등성 등은 모두 워크로드의 내결함성을 높이는 데 도움이 되는 기법입니다.

트랜잭션은 속성을 준수하는 작업 그룹입니다. ACID 그 속성이란 다음과 같습니다.

  • 원자성: 모든 행동이 일어나거나 전혀 일어나지 않을 것입니다.

  • 일관성: 각 트랜잭션은 워크로드를 유효한 상태로 놔둡니다.

  • 격리: 동시에 수행된 트랜잭션은 워크로드를 순차적으로 수행된 것과 동일한 상태로 놔둡니다.

  • 내구성: 트랜잭션이 커밋되면 워크로드에 고장이 발생한 경우에도 모든 영향이 보존됩니다.

지수 백오프 및 지터가 있는 재시도를 통해 하이젠버그, 오버로드 또는 기타 조건으로 인한 일시적 고장을 극복할 수 있습니다. 트랜잭션이 멱등인 경우 부작용 없이 여러 번 재시도할 수 있습니다.

하이젠버그가 내결함성 하드웨어 구성에 미치는 영향을 고려한다면, 하이젠버그가 기본 하위 시스템과 중복 하위 시스템 모두에 나타날 확률은 극히 적기 때문에 크게 걱정하지 않아도 될 것입니다. (Jim Gray, “컴퓨터가 멈추는 이유와 이에 대해 취할 수 있는 조치”, 1985년 6월, 탠덤 기술 보고서 85.7. 참조) 분산 시스템에서 우리는 소프트웨어를 사용하여 동일한 결과를 달성하고자 합니다.

하이젠버그가 간접 호출되면 소프트웨어가 잘못된 작업을 빠르게 감지하고 실패하여 다시 시도하는 게 중요합니다. 이는 방어 프로그래밍과 입력, 중간 결과 및 출력의 검증을 통해 달성됩니다. 또한 프로세스는 격리되며 다른 프로세스와 상태를 공유하지 않습니다.

이 모듈식 접근 방식을 통해 고장 발생 시 영향의 범위를 제한할 수 있습니다. 프로세스는 독립적으로 고장 납니다. 프로세스가 실패하면 소프트웨어가 “프로세스 쌍”을 사용하여 작업을 재시도해야 합니다. 즉, 새 프로세스가 실패한 프로세스를 맡을 수 있습니다. 워크로드의 안정성과 무결성을 유지하려면 각 작업을 ACID 트랜잭션으로 취급해야 합니다.

이렇게 하면 트랜잭션을 중단하고 변경 내용을 롤백하여 워크로드 상태를 손상시키지 않고 프로세스가 실패할 수 있습니다. 이렇게 하면 복구 프로세스가 정상 작동이 확인된 상태에서 트랜잭션을 재시도하고 정상적으로 재시작할 수 있습니다. 이렇게 하면 소프트웨어가 하이젠버그에 대한 내결함성을 유지할 수 있습니다.

하지만 보어버그를 방지하는 소프트웨어를 만드는 것을 목표로 삼아서는 안 됩니다. 어떤 수준의 중복성으로도 올바른 결과를 얻을 수 없으므로 워크로드가 프로덕션에 들어가기 전에 이러한 결함을 찾아 제거해야 합니다. (Jim Gray, “컴퓨터가 멈추는 이유와 이에 대해 취할 수 있는 조치”, 1985년 6월, 탠덤 기술 보고서 85.7. 참조)

이를 늘리는 MTBF 마지막 방법은 실패로 인한 영향 범위를 줄이는 것입니다. 모듈화를 통한 장애 격리를 사용하여 장애 컨테이너를 생성하는 것은 앞서 내결함성 및 장애 격리에서 설명한 바와 같이 이를 위한 기본 방법입니다. 고장률을 줄이면 가용성이 향상됩니다. AWS 서비스를 제어 플레인 및 데이터 플레인으로 분할, 가용 영역 독립성 (AZI), 지역 격리, 셀 기반 아키텍처, 셔플 샤딩과 같은 기술을 사용하여 장애를 격리합니다. 이러한 패턴은 고객도 사용할 수 있는 패턴이기도 합니다. AWS

예를 들어, 전체 고객 중 최대 5%에 해당하는 서비스를 제공하는 워크로드가 자신의 인프라 안의 여러 장애 컨테이너에 고객을 배치한 경우를 살펴보겠습니다. 이러한 장애 컨테이너 중 하나에서 요청의 10%에 대해 클라이언트 제한 시간을 초과하여 지연 시간이 증가하는 이벤트가 발생합니다. 이 이벤트 기간 동안 95%의 고객이 서비스를 100% 이용할 수 있었습니다. 나머지 5%의 경우 서비스를 90% 이용할 수 있는 것으로 나타났습니다. 따라서 100%의 고객에게 요청의 10%가 실패하는 대신 1 − (5% of customers×10% of their requests) = 99.5%의 가용성이 확보됩니다(결과적으로 90%의 가용성이 보장됨).

규칙 11

장애 격리는 전체 장애율을 줄여 MTBF 영향의 범위를 줄이고 워크로드를 증가시킵니다.

종속성 증가 MTBF

AWS 의존도를 MTBF 높이는 첫 번째 방법은 장애 격리를 사용하는 것입니다. 많은 AWS 서비스가 AZ에서 격리 수준을 제공합니다. 즉, 한 AZ에서 장애가 발생해도 다른 AZ의 서비스에는 영향을 미치지 않습니다.

여러 개의 중복 EC2 인스턴스를 사용하면 하위 시스템 AZs 가용성이 향상됩니다. AZI단일 지역 내에서 스페어링 기능을 제공하여 서비스 가용성을 높일 수 있습니다. AZI

하지만 모든 AWS 서비스가 AZ 수준에서 운영되는 것은 아닙니다. 리전별 격리를 제공하는 곳도 많습니다. 이 경우, 리전 서비스에 맞게 설계된 가용성이 워크로드에 필요한 전체 가용성을 지원하지 않는 경우 다중 리전 접근 방식을 고려할 수 있습니다. 각 리전은 스페어링에 해당하는 격리된 서비스 인스턴스화를 제공합니다.

다중 리전 서비스를 더욱 쉽게 구축하는 데 도움이 되는 다양한 서비스가 있습니다. 예:

이 문서는 다중 리전 워크로드를 구축하는 전략을 자세히 다루지는 않지만, 사용자는 원하는 가용성 목표를 달성하는 데 필요한 추가 비용, 복잡성 및 운영 관행과 함께 다중 리전 아키텍처의 가용성 이점을 비교해 봐야 합니다.

종속성을 MTBF 높이는 다음 방법은 워크로드를 정적으로 안정적으로 설계하는 것입니다. 예를 들어, 제품 정보를 제공하는 워크로드가 있다고 가정합니다. 고객이 제품을 요청하면 서비스는 외부 메타데이터 서비스에 요청하여 제품 세부 정보를 검색합니다. 그러면 워크로드가 해당 정보를 모두 고객에게 반환합니다.

하지만 메타데이터 서비스를 사용할 수 없는 경우 고객의 요청은 실패합니다. 대신 요청에 응답하는 데 사용할 메타데이터를 서비스에 로컬로 비동기적으로 가져오거나 푸시할 수 있습니다. 이렇게 하면 중요 경로에서 메타데이터 서비스에 대한 동기 직접 호출이 제거됩니다.

또한 메타데이터 서비스가 없는 경우에도 서비스를 계속 사용할 수 있으므로 가용성 계산 시 종속 항목으로 해당 서비스를 제거할 수 있습니다. 이 예는 메타데이터가 자주 변경되지 않으며 요청이 실패하는 것보다 오래된 메타데이터를 제공하는 것이 낫다는 가정을 기반으로 합니다. 또 다른 유사한 예로는 TTL 만료 후에도 데이터를 캐시에 보관하여 새로 고친 답변을 쉽게 찾을 수 없을 때 응답에 사용할 수 DNS 있는 serve-stale을 들 수 있습니다.

종속성을 높이는 마지막 방법은 실패로 인한 영향 MTBF 범위를 줄이는 것입니다. 앞서 설명했듯이, 고장은 났는가 안 났는가로 나뉘지 않고, 얼마나 심하게 또는 경미하게 났는가로 나뉩니다. 이는 모듈화의 영향입니다. 고장은 해당 컨테이너에서 서비스를 받는 요청이나 사용자에게만 국한됩니다.

따라서 이벤트 중에 발생하는 고장이 줄어들어 영향 범위가 제한되므로 궁극적으로 전체 워크로드의 가용성이 향상됩니다.

일반적인 영향 원인 감소

1985년, Jim Gray는 탠덤 컴퓨터에서 연구를 진행하면서 고장이 주로 소프트웨어와 운영이라는 두 가지 요인에 의해 발생한다는 사실을 발견했습니다. (Jim Gray, “컴퓨터가 멈추는 이유와 이에 대해 취할 수 있는 조치”, 1985년 6월, 탠덤 기술 보고서 85.7. 참조) 36년이 지난 지금도 이 사실은 변함이 없습니다. 기술의 발전에도 불구하고 이러한 문제를 쉽게 해결할 수 있는 방법은 없으며 고장의 주요 원인은 변하지 않았습니다. 이 항목의 시작 부분에서 소프트웨어 고장 해결에 대해 설명했으므로 여기서는 운영과 고장 빈도 감소에 중점을 둘 것입니다.

안정성과 특성 비교

분산 시스템 가용성 항목의 소프트웨어 및 하드웨어 고장률 그래프를 다시 참조하면 각 소프트웨어 릴리스마다 결함이 추가되고 있음을 알 수 있습니다. 즉, 워크로드가 변경되면 고장 위험이 높아집니다. 이러한 변경은 일반적으로 새 특성과 비슷하며 이에 따른 결과를 제공합니다. 워크로드의 가용성이 높을수록 새 특성보다 안정성이 더 좋습니다. 따라서 가용성을 개선하는 가장 간단한 방법 중 하나는 배포 빈도를 줄이거나 특성 수를 줄이는 것입니다. 배포 빈도가 높은 워크로드는 그렇지 않은 워크로드보다 본질적으로 가용성이 낮습니다. 그러나 특성을 추가하지 못한 워크로드는 고객 수요를 따라가지 못하고 시간이 지남에 따라 유용성이 떨어질 수 있습니다.

그렇다면 계속해서 혁신하고 특성을 안전하게 출시하려면 어떻게 해야 할까요? 답은 표준화입니다. 올바른 배포 방법은 무엇입니까? 배포를 어떻게 주문합니까? 테스트 표준은 무엇입니까? 스테이지 사이에 얼마나 시간을 두겠습니까? 유닛 테스트에서 소프트웨어 코드를 충분히 다루고 있나요? 표준화를 통해 이러한 질문에 대한 답을 찾고 부하 테스트를 하지 않거나, 배포 단계를 건너뛰거나, 너무 많은 호스트에 너무 빨리 배포하는 등의 문제로 인해 발생하는 문제를 예방할 수 있습니다.

표준화를 구현하는 방법은 자동화를 이용하는 것입니다. 이를 통해 사람이 실수할 가능성이 줄어들고 컴퓨터가 잘하는 일을 할 수 있게 됩니다. 즉, 매번 같은 작업을 반복해서 수행하는 거죠. 표준화와 자동화를 함께 유지하는 방법은 목표를 설정하는 것입니다. 수동 변경 없음, 조건부 인증 시스템을 통해서만 호스트 액세스API, 모든 권한에 대한 부하 테스트 작성 등과 같은 목표가 있습니다. 운영의 우수성은 문화적 규범이며 상당한 변화가 필요할 수 있습니다. 목표 대비 성과를 설정하고 추적하면 워크로드 가용성에 광범위한 영향을 미칠 문화적 변화를 주도하는 데 도움이 됩니다. AWS Well-Architected 운영 우수성 요소는 운영 우수성을 위한 포괄적인 모범 사례를 제공합니다.

운영자 안전

고장을 초래하는 운영 문제의 또 다른 주요 원인은 바로 사람입니다. 사람은 실수를 합니다. 잘못된 자격 증명을 사용하거나, 잘못된 명령을 입력하거나, Enter 키를 너무 빨리 누르거나, 중요한 단계를 놓칠 수 있습니다. 수동 조치를 지속적으로 취하면 오류가 발생하여 고장이 일어납니다.

운영자 오류의 주요 원인 중 하나는 혼란스럽거나 직관적이지 않거나 일관되지 않은 사용자 인터페이스입니다. Jim Gray는 또한 1985년 연구에서 “운영자에게 정보를 요청하거나 일부 기능을 수행하도록 요청하는 인터페이스는 단순하고 일관적이며 운영자 내결함성이 있어야 한다”고 언급했습니다. (Jim Gray, “컴퓨터가 멈추는 이유와 이에 대해 취할 수 있는 조치”, 1985년 6월, 탠덤 기술 보고서 85.7. 참조) 이 통찰은 오늘날에도 여전히 유효합니다. 지난 30년 동안 업계 전반에 걸쳐 혼란스럽거나 복잡한 사용자 인터페이스, 확인이나 지침의 부재, 심지어 비우호적인 인간의 언어 때문에 운영자가 잘못된 일을 하게 된 사례는 수없이 많습니다.

규칙 12

운영자가 올바른 일을 쉽게 할 수 있도록 하세요.

과부하 방지

영향을 미치는 최종 공통 기여자는 워크로드의 실제 사용자인 고객입니다. 성공적인 워크로드는 많이 사용되는 경향이 있지만, 때로는 그 사용량이 워크로드의 확장 능력을 능가하기도 합니다. 디스크가 꽉 차거나, 스레드 풀이 고갈되거나, 네트워크 대역폭이 포화되거나, 데이터베이스 연결 한도에 도달하는 등 많은 일이 발생할 수 있습니다.

이러한 문제를 해결할 수 있는 확실한 방법은 없지만 운영 상태 지표를 통해 용량 및 활용도를 사전에 모니터링하면 이러한 고장이 발생할 수 있는 경우 조기 경고를 제공할 수 있습니다. 부하 제거, 회로 차단기, 지수 백오프 및 지터를 사용한 재시도와 같은 기법은 영향을 최소화하고 성공률을 높이는 데 도움이 될 수 있지만 이러한 상황은 여전히 고장으로 이어집니다. 운영 상태 지표를 기반으로 하는 자동 규모 조정은 과부하로 인한 고장 빈도를 줄이는 데 도움이 될 수 있지만 사용률 변화에 충분히 신속하게 대응하지 못할 수 있습니다.

고객이 지속적으로 사용할 수 있는 용량을 확보하려면 가용성과 비용을 절충해야 합니다. 용량 부족으로 인한 가용성 중단이 발생하지 않도록 하는 한 가지 방법은 각 고객에게 할당량을 제공하고 할당된 할당량을 100% 제공하도록 워크로드 용량을 규모 조정하는 것입니다. 고객이 할당량을 초과하면 속도 제한이 발생하는데, 이는 고장이 아니며 가용성에 영향을 주지 않습니다. 또한 충분한 용량을 프로비저닝하려면 고객 기반을 면밀히 추적하고 향후 활용도를 예측해야 합니다. 이렇게 하면 고객의 과도한 소비로 인해 워크로드가 고장 시나리오로 이어지지 않도록 할 수 있습니다.

예를 들어 스토리지 서비스를 제공하는 워크로드를 살펴보겠습니다. 워크로드의 각 서버는 초당 100건의 다운로드를 지원할 수 있고, 고객에게는 할당량 또는 초당 200건의 다운로드를 지원할 수 있으며 고객은 500명입니다. 이 같은 규모의 고객을 지원하려면 서비스가 초당 100,000건의 다운로드 용량을 제공해야 하며, 이를 위해서는 1,000대의 서버가 필요합니다. 고객이 할당량을 초과하면 속도 제한이 발생하여 다른 모든 고객에게 충분한 용량을 제공할 수 있습니다. 이것은 작업 단위를 거부하지 않고 과부하를 방지하는 한 가지 방법의 간단한 예입니다.