Principes de conception - Reliability Pillar

Principes de conception

Dans le cloud, il existe un certain nombre de principes qui peuvent vous aider à renforcer la fiabilité. Gardez les éléments suivants à l’esprit lorsque nous aborderons les meilleures pratiques :

  • Récupération automatique après une panne : en contrôlant les indicateurs clés de performance d’une charge de travail, vous pouvez exécuter l’automatisation en cas de transgression d’un seuil. Ces KPI doivent couvrir la valeur commerciale et non des aspects techniques du fonctionnement du service. Cela permet la création de notifications automatiques, le suivi des pannes et l’exécution de processus de récupération automatique qui contournent ou corrigent les pannes. Une automatisation plus sophistiquée rend possible l’anticipation et la correction des pannes avant qu’elles ne se produisent.

  • Test des procédures de récupération : dans un environnement sur site, des tests sont souvent conduits pour prouver que la charge de travail fonctionne dans un scénario particulier. Ces tests ne sont généralement pas utilisés pour valider les stratégies de récupération. Dans le cloud, vous pouvez tester de quelle façon votre charge de travail cesse de fonctionner et valider vos procédures de récupération. Vous pouvez utiliser l’automatisation pour simuler différentes pannes ou recréer les scénarios qui ont déjà conduit à des pannes. Cette approche expose les chemins de défaillance que vous pouvez tester et corriger avant qu’un scénario de défaillance réelle ne se produise et réduire ainsi les risques.

  • Mise à l’échelle horizontale pour augmenter la disponibilité de la charge de travail : remplacez une ressource volumineuse par plusieurs petites ressources pour réduire l’impact d’une défaillance unique sur la charge de travail globale. Répartissez les demandes entre plusieurs ressources plus petites pour garantir qu’elles ne partagent pas un point de panne commun.

  • Une capacité réellement adaptée à vos besoins : une cause courante de défaillance des charges de travail sur site est la saturation des ressources, lorsque les demandes ciblant une charge de travail en dépassent la capacité (c’est souvent l’objectif des attaques par déni de service). Dans le cloud, vous pouvez contrôler la demande et l’utilisation de la charge de travail. Vous pouvez aussi automatiser l’ajout ou la suppression de ressources afin de maintenir le niveau optimal de satisfaction de la demande sans surallocation ou sous-allocation. Il existe toujours des limites, mais certaines peuvent être contrôlées et d’autres gérées (Consulter Gestion des quotas de service et des contraintes).

  • Gestion des changements avec l’automatisation : les modifications apportées à l’infrastructure doivent être appliquées via l’automatisation. Les modifications qui doivent être gérées incluent celles apportées à l’automatisation et qui peuvent ensuite être suivies et vérifiées.