Modèles de résilience multi-AZ avancés

Date de publication :11 juillet 2023(Révisions du document)

De nombreux clients exécutent leurs charges de travail dans des configurations de zones de disponibilité multiples (AZ) à haute disponibilité. Ces architectures fonctionnent bien en cas de défaillance binaire, mais rencontrent souvent des problèmes liés àgriséchecs. Les manifestations de ce type de défaillance peuvent être subtiles et ne peuvent être détectées rapidement et définitivement. Ce document fournit des conseils sur la manière d'instrumenter les charges de travail afin de détecter l'impact des défaillances grises isolées dans une seule zone de disponibilité, puis de prendre des mesures pour atténuer cet impact dans la zone de disponibilité.

Introduction

L'objectif de ce document est de vous aider à implémenter plus efficacement des architectures multi-AZ résilientes. L'une des meilleures pratiques pour créer des systèmes résilients dansCloud privé virtuel AmazonLes réseaux (VPC) doiventdéployer chaque charge de travail dans plusieurs zones de disponibilité.

UnZone de disponibilitéest un ou plusieurs centres de données discrets dotés d'une alimentation, d'une mise en réseau et d'une connectivité redondantes. L'utilisation de plusieurs zones de disponibilité vous permet de gérer des charges de travail qui sont plus hautement disponibles, tolérantes aux pannes et évolutives que ce qui serait possible dans un centre de données unique.

De nombreuxAWSdes services, tels queMise à l'échelle automatique d'Amazon Elastic Compute Cloud (EC2)ouService de base de données relationnelle Amazon(Amazon RDS), fournissez une configuration multi-AZ. Ces services ne vous obligent pas à créer d'outils d'observabilité ou de basculement supplémentaires. Ils rendent les charges de travail résilientes aux modes de défaillance binaires facilement détectables au sein d'unRégion AWSqui concernent une seule zone de disponibilité. Il peut s'agir d'une panne matérielle complète, d'une coupure de courant ou d'un bogue logiciel latent affectant la majorité des ressources.

Mais il existe une autre catégorie de défaillances appeléepannes grises, dont les manifestations sont subtiles et défient toute détection rapide et définitive. Cela entraîne à son tour des délais plus longs pour atténuer l'impact causé par la panne. Cet article se concentre sur les impacts que les pannes grises peuvent avoir sur les architectures multi-AZ, sur la manière de les détecter et, enfin, sur la manière de les atténuer.

Les conseils fournis dans ce livre blanc s'appliquent principalement à des classes spécifiques de charges de travail qui :

Utiliser principalement zonalAWSservices
Nécessité d'améliorer la résilience d'une région
sont prêts à faire un investissement important pour créer les modèles d'observabilité et de résilience requis

Dans le cadre de ces charges de travail, il se peut que vous ne soyez pas disposé à faire certains ou tous les compromis présentés dansRéagir aux pannes grises, ou ne pas avoir la possibilité d'utiliser plusieurs régions. Ces types de charges de travail sont susceptibles de représenter un petit sous-ensemble de votre portefeuille global. Par conséquent, ces conseils doivent être pris en compte au niveau de la charge de travail plutôt qu'au niveau de la plate-forme.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Défaillances grises