복원력을 위한 공동 책임 모델 - 안정성 원칙

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

복원력을 위한 공동 책임 모델

복원력은 AWS 와 사용자 간의 공동 책임입니다. 복원력의 일부인 재해 복구(DR) 및 가용성이 이 공동 모델에서 어떻게 작동하는지 이해해야 합니다.

AWS 책임 - 클라우드의 복원력

AWS 는 에서 제공하는 모든 서비스를 실행하는 인프라의 복원성을 담당합니다 AWS 클라우드. 이 인프라는 AWS 클라우드 서비스를 실행하는 하드웨어, 소프트웨어, 네트워킹 및 시설로 구성됩니다. AWS 는 서비스 가용성이 서비스 수준 계약()을 충족하거나 초과할 AWS 클라우드 수 있도록 상업적으로 합리적인 노력을 기울입니다. AWS SLAs

AWS 글로벌 클라우드 인프라는 고객이 복원력이 뛰어난 워크로드 아키텍처를 구축할 수 있도록 설계되었습니다. 각 AWS 리전 는 완전히 격리되어 있으며 물리적으로 격리된 인프라 파티션인 여러 가용 영역 로 구성됩니다. 가용 영역은 워크로드 복원력에 영향을 줄 수 있는 결함을 격리하여 리전의 다른 영역에 영향을 미치지 않도록 합니다. 그러나 동시에 의 모든 영역은 고대역폭, 지연 시간이 짧은 네트워킹과 상호 연결 AWS 리전 되며, 영역 간에 높은 처리량, 지연 시간이 짧은 네트워킹을 제공하는 완전 중복 전용 메트로 광섬유를 통해 상호 연결됩니다. 영역 간의 모든 트래픽은 암호화됩니다. 네트워크 성능은 영역 간에 동기식 복제를 수행하기에 충분합니다. 애플리케이션이 에 분할되면 기업은 정전AZs, 번개, 토네이도, 허리케인 등과 같은 문제로부터 더 잘 격리되고 보호됩니다.

고객 책임 - 클라우드의 복원력

책임은 선택한 AWS 클라우드 서비스에 따라 결정됩니다. 서비스에 따라 복원력 책임의 일환으로서 고객이 수행해야 할 구성 작업의 양이 달라집니다. 예를 들어 Amazon Elastic Compute Cloud(Amazon EC2)와 같은 서비스를 사용하려면 고객이 필요한 모든 복원력 구성 및 관리 작업을 수행해야 합니다. Amazon EC2 인스턴스를 배포하는 고객은 여러 위치(예: 가용 영역)에 Amazon EC2 인스턴스를 배포하고, Auto Scaling과 같은 서비스를 사용하여 자체 복구를 구현하고, 인스턴스에 설치된 애플리케이션에 복원력이 뛰어난 워크로드 아키텍처 모범 사례를 사용할 책임이 있습니다. AWS Amazon S3 및 Amazon DynamoDB와 같은 관리형 서비스의 경우 인프라 계층, 운영 체제 및 플랫폼을 AWS 운영하며 고객은 엔드포인트에 액세스하여 데이터를 저장하고 검색합니다. 백업, 버전 관리 및 복제 전략을 포함하여 데이터의 복원력을 관리할 책임은 고객에게 있습니다.

의 여러 가용 영역에 워크로드를 배포하는 AWS 리전 것은 문제를 하나의 가용 영역으로 격리하여 워크로드를 보호하도록 설계된 고가용성 전략의 일부이며, 이 영역은 다른 가용 영역의 중복성을 사용하여 요청을 계속 제공합니다. 다중 AZ 아키텍처는 정전, 낙뢰, 토네이도, 지진 등과 같은 문제로부터 워크로드를 더 잘 격리하고 보호하도록 설계된 DR 전략의 일부이기도 합니다. DR 전략은 여러 AWS 리전을 사용할 수도 있습니다. 예를 들어 액티브/패시브 구성에서 액티브 리전이 더 이상 요청을 처리할 수 없는 경우 워크로드에 대한 서비스가 액티브 리전에서 DR 리전으로 장애 조치됩니다.

공동 복원력 모델을 보여주는 차트.

클라우드 자체 및 내부 복원력에 대한 고객 및 AWS의 책임.

AWS 서비스를 사용하여 복원력 목표를 달성할 수 있습니다. 고객은 클라우드에서 복원력을 달성하기 위해 시스템의 다음 측면을 관리할 책임이 있습니다. 특히 각 서비스에 대한 자세한 내용은 AWS 설명서를 참조하세요.

네트워킹, 할당량 및 제약 조건

  • 공동 책임 모델의 이 영역에 대한 모범 사례는 기초 페이지에 자세히 설명합니다.

  • 해당하는 경우 예상되는 로드 요청 증가에 따라 포함하는 서비스의 서비스 할당량 및 제약 조건을 이해하고 규모를 조정할 수 있는 충분한 공간이 있는 아키텍처를 계획합니다.

  • 고가용성의 확장 가능한 중복 네트워크로 네트워크 토폴로지를 설계합니다.

변경 관리 및 운영 복원력

  • 변경 관리에는 환경에 변경 사항을 도입하고 관리하는 방법이 포함됩니다. 변경 사항을 구현하려면 애플리케이션 및 인프라에 대한 런북과 배포 전략을 구축하고 최신 상태로 유지해야 합니다.

  • 워크로드 리소스를 모니터링하는 탄력적인 전략에서는 기술 및 비즈니스 지표, 알림, 자동화 및 분석을 포함한 모든 구성 요소를 고려합니다.

  • 클라우드의 워크로드는 사용량 장애 또는 변동에 대응하여 스케일 인되는 수요 규모의 변화에 적응해야 합니다.

관찰성 및 장애 관리

워크로드 아키텍처

  • 워크로드 아키텍처에는 비즈니스 도메인에 대한 서비스를 설계하고, 장애를 방지하기 위해 SOA 및 분산 시스템 설계를 적용하고, 제한, 재시도, 대기열 관리, 제한 시간 및 비상 레버와 같은 기능을 구축하는 방법이 포함되어 있습니다.

  • 입증된 AWS 솔루션, Amazon Builders Library서버리스 패턴을 활용하여 모범 사례에 맞춰 구현을 바로 시작할 수 있습니다.

  • 지속적인 개선을 통해 시스템을 분산 서비스로 분해하여 더 빠르게 규모를 조정하고 혁신합니다. AWS 마이크로서비스 지침 및 관리형 서비스 옵션을 사용하여 변경을 도입하고 혁신하는 역량을 단순화하고 가속화합니다.

중요 인프라에 대한 지속적인 테스트

  • 신뢰성 테스트는 기능, 성능, 카오스 수준에서 테스트하고, 인시던트 분석 및 게임 데이 관행을 채택하여 잘 이해되지 않은 문제를 해결하는 데 필요한 전문성을 구축함을 의미합니다.

  • 클라우드 올인 및 하이브리드 애플리케이션 모두에서 문제가 발생하거나 구성 요소가 중단될 때 애플리케이션이 어떻게 작동하는지 알면 중단으로부터 빠르고 신뢰할 수 있는 방식으로 복구할 수 있습니다.

  • 예상대로 작동하지 않을 때 시스템이 어떻게 작동하는지 이해하기 위해 반복 가능한 실험을 만들고 문서화합니다. 이러한 테스트는 전체 복원력의 효율성을 입증하고 실제 오류 시나리오에 직면하기 전에 운영 절차에 대한 피드백 루프를 제공합니다.