REL11-BP02 Basculez vers des ressources saines - Reliability Pillar

REL11-BP02 Basculez vers des ressources saines

En cas de défaillance des ressources, les ressources saines doivent continuer à répondre aux requêtes. En cas de problèmes de localisation (tels que la zone de disponibilité ou Région AWS), assurez-vous que vous disposez de systèmes permettant de basculer vers des ressources saines situées dans des lieux intacts.

Lorsque vous concevez un service, répartissez la charge entre les ressources, les zones de disponibilité ou les régions. Ainsi, la défaillance d’une ressource individuelle ou l’altération peut être atténuée en déplaçant le trafic vers les ressources saines restantes. Réfléchissez à la manière dont les services sont découverts et acheminés en cas de défaillance.

Concevez vos services en tenant compte de la restauration après panne. Chez AWS, nous concevons des services de manière à minimiser le temps de restauration en cas de panne et d'impact sur les données. Nos services utilisent principalement des magasins de données qui valident les requêtes uniquement lorsque les données sont stockées durablement sur plusieurs réplicas au sein d’une région. Ils sont élaborés de manière à utiliser l’isolation basée sur les cellules et à faire appel à l’isolement des pannes fourni par des zones de disponibilité. Nous utilisons largement l’automatisation dans nos procédures opérationnelles. Nous optimisons également nos replace-and-restart fonctionnalités afin de nous remettre rapidement en cas d'interruption.

Les modèles et les conceptions qui permettent le basculement varient pour chaque service de plateforme AWS . De nombreux services gérés AWS nativement sont des zones de disponibilité multiples (comme Lambda API ou Gateway). D'autres AWS services (tels que EC2 etEKS) nécessitent des conceptions de bonnes pratiques spécifiques pour prendre en charge le basculement des ressources ou le stockage des données entre AZs eux.

La surveillance doit être configurée pour vérifier que la ressource de basculement est saine, suivre la progression du basculement des ressources et surveiller le rétablissement des processus métier.

Résultat souhaité : les systèmes sont capables d’utiliser automatiquement ou manuellement de nouvelles ressources pour se remettre d’une dégradation.

Anti-modèles courants :

La planification des défaillances ne fait pas partie de la phase de planification et de conception.
RTOet ne RPO sont pas établis.
Surveillance insuffisante pour détecter les ressources défaillantes.
Isolement approprié des domaines de défaillance.
Le basculement multirégional n’est pas pris en compte.
La détection des défaillances est trop sensible ou trop agressive lors de la décision de basculer.
Pas de test ni de validation de la conception du basculement.
Automatisation de la réparation automatique sans notification indiquant que la réparation était nécessaire.
Pas de période d’attente pour éviter un failback trop précoce.

Avantages du respect de cette bonne pratique : vous pouvez créer des systèmes plus résilients qui préservent leur fiabilité en cas de défaillance en se dégradant progressivement et en se rétablissant rapidement.

Niveau d’exposition au risque si cette bonne pratique n’est pas respectée : élevé

Directives d’implémentation

AWS des services tels que Elastic Load Balancing et Amazon EC2 Auto Scaling aident à répartir la charge entre les ressources et les zones de disponibilité. Par conséquent, la défaillance d'une ressource individuelle (telle qu'une EC2 instance) ou la détérioration d'une zone de disponibilité peuvent être atténuées en transférant le trafic vers des ressources saines.

Pour les charges de travail multirégionales, les conceptions sont plus complexes. Par exemple, les répliques de lecture entre régions vous permettent de déployer vos données sur plusieurs régions. Régions AWS Cependant, le basculement est toujours nécessaire pour faire passer le réplica en lecture au niveau principal, puis pour rediriger le trafic vers le nouveau point de terminaison. Amazon Route 53, Amazon Application Recovery Controller (ARC) CloudFront, Amazon et AWS Global Accelerator peuvent aider à acheminer le trafic Régions AWS.

AWS les services, tels qu'Amazon S3, Lambda, API Gateway, Amazon, SQS Amazon, SNS AmazonSES, Amazon Pinpoint, Amazon, ou ECR AWS Certificate Manager Amazon DynamoDB EventBridge, sont automatiquement déployés dans plusieurs zones de disponibilité par. AWS En cas de panne, ces AWS services acheminent automatiquement le trafic vers des emplacements sains. Les données sont stockées de manière redondante dans plusieurs zones de disponibilité et restent disponibles.

Pour AmazonRDS, Amazon Aurora, Amazon Redshift, Amazon ou Amazon EKSECS, le multi-AZ est une option de configuration. AWS peut diriger le trafic vers l'instance saine si le basculement est initié. Cette action de basculement peut être prise par le AWS client ou selon ses exigences.

Pour les EC2 instances Amazon, Amazon Redshift, Amazon ECS Tasks ou Amazon EKS Pods, vous choisissez les zones de disponibilité dans lesquelles vous souhaitez effectuer le déploiement. Pour certaines conceptions, Elastic Load Balancing fournit la solution pour détecter les instances dans les zones défectueuses et acheminer le trafic vers les zones saines. Elastic Load Balancing peut même acheminer le trafic vers les composants de votre centre de données sur site.

Pour le basculement du trafic multirégional, le réacheminement peut tirer parti d'Amazon Route 53, d'Amazon Application Recovery Controller, de Route 53 Private DNS for AWS Global Accelerator VPCs, ou CloudFront pour fournir un moyen de définir des domaines Internet et d'attribuer des politiques de routage, y compris des bilans de santé, afin d'acheminer le trafic vers des régions saines. AWS Global Accelerator fournit des adresses IP statiques qui agissent comme un point d'entrée fixe vers votre application, puis routent vers les points de terminaison Régions AWS de votre choix, en utilisant le réseau AWS mondial plutôt qu'Internet pour de meilleures performances et une meilleure fiabilité.

Étapes d’implémentation

Créez des modèles de basculement pour toutes les applications et tous les services appropriés. Isolez chaque composant de l'architecture et créez des modèles de basculement RTO correspondant RPO à chaque composant.
Configurez les environnements de bas niveau (tels que le développement ou les tests) avec tous les services requis pour disposer d’un plan de basculement. Déployez les solutions en utilisant l’infrastructure en tant que code (IaC) pour garantir la reproductibilité.
Configurez un site de reprise tel qu’une deuxième région pour implémenter et tester les modèles de basculement. Si nécessaire, les ressources pour les tests peuvent être configurées temporairement afin de limiter les coûts supplémentaires.
Déterminez les plans de basculement automatisés AWS, ceux qui peuvent être automatisés par un DevOps processus et ceux qui peuvent être manuels. Documentez et mesurez chaque service RTO etRPO.
Créez un manuel de basculement et incluez toutes les étapes nécessaires au basculement de chaque ressource, application et service.
Créez un manuel de failback et incluez toutes les étapes nécessaires (avec calendrier) pour chaque ressource, application et service.
Créez un plan pour lancer et répéter le manuel. Utilisez des simulations et des tests de chaos pour tester les étapes du manuel et l’automatisation.
En cas de détérioration de l'emplacement (par exemple, zone de disponibilité ou Région AWS), assurez-vous de disposer de systèmes permettant de basculer vers des ressources saines situées dans des lieux intacts. Vérifiez le quota, les niveaux de mise à l’échelle automatique et les ressources en cours d’exécution avant le test de basculement.

Ressources

Bonnes pratiques Well-Architected connexes :

Documents connexes :

Exemples connexes :

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

REL11-BP01 Surveiller tous les composants de la charge de travail pour détecter les défaillances

REL11-BP03 Automatiser la guérison sur toutes les couches

Sélectionner vos préférences de cookies

Personnaliser les préférences de cookies

Essentiels

Performances

Fonctionnels

Publicitaires

Impossible d'enregistrer les préférences concernant les cookies

REL11-BP02 Basculez vers des ressources saines

Directives d’implémentation

Étapes d’implémentation

Ressources

Cette page vous a-t-elle été utile ?

Rubrique suivante :

Rubrique précédente :

Avez-vous besoin d’aide ?