Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Gestion des défaillances
Des pannes peuvent survenir dans tous les systèmes présentant un niveau de complexité raisonnable. Pour que votre charge de travail soit fiable, vous devez avoir connaissance des défaillances au moment où elles se produisent et prendre des mesures pour éviter qu’elles aient un impact sur la disponibilité. Les charges de travail doivent être en mesure de résister aux défaillances et de résoudre automatiquement les problèmes.
Avec AWS, vous pouvez tirer profit de l’automatisation pour réagir aux données de surveillance. Par exemple, lorsqu’une métrique particulière franchit un seuil, vous pouvez lancer une action automatique pour corriger le problème. De même, plutôt que de tenter de diagnostiquer et de corriger une ressource défaillante qui fait partie de votre environnement de production, vous pouvez la remplacer par une nouvelle ressource et exécuter l’analyse de cette ressource hors production. Comme le cloud vous permet de maintenir les versions temporaires d’un système complet à bas coût, vous pouvez utiliser les tests automatiques pour vérifier les processus complets de récupération.
Les questions suivantes sont axées sur ces quelques considérations relatives à la fiabilité.
FIA 9 : Comment sauvegarder des données ? |
---|
Sauvegardez les données, les applications et la configuration pour répondre à vos exigences en matière d’objectifs de délai de reprise (RTO) et de points de reprise (RPO). |
FIA 10 : Comment utiliser l’isolation des pannes pour protéger votre charge de travail ? |
---|
L’isolation des défaillances limite l’impact de la défaillance d’un composant ou d’un système à une limite définie. Si l’isolation est correcte, les composants situés en dehors de cette limite ne sont pas affectés par la défaillance. L’exécution de votre charge de travail au-delà de plusieurs limites d’isolation des défaillances peut la rendre plus résistante aux défaillances. |
FIA 11 : comment concevoir votre charge de travail pour la rendre résistante aux défaillances de composants ? |
---|
Les charges de travail exigeant une haute disponibilité et un faible temps moyen de récupération (MTTR) doivent être conçues pour être résilientes. |
FIA 12 : comment tester la fiabilité ? |
---|
Une fois que vous avez conçu votre charge de travail pour qu’elle soit résiliente aux sollicitations de la production, les tests sont le seul moyen de s’assurer qu’elle fonctionne comme prévu et d’obtenir la résilience voulue. |
FIA 13 : comment planifier la reprise après sinistre (DR) ? |
---|
La mise en place de sauvegardes et de composants de charge de travail redondants constitue le début de votre stratégie de DR. L’objectif de délai de reprise (RTO) et l’objectif de point de reprise (RPO) sont vos objectifs pour la restauration de votre charge de travail. Définissez-les en fonction des besoins de l’entreprise. Mettez en œuvre une stratégie pour atteindre ces objectifs, en particulier en tenant compte de l’emplacement et de la fonction des données et des ressources de charge de travail. La probabilité d’une perturbation et le coût de la reprise sont également des facteurs clés qui permettent de déterminer la valeur opérationnelle de la reprise après sinistre d’une charge de travail. |
Sauvegardez régulièrement vos données et testez vos fichiers de sauvegarde pour vérifier que vous pouvez récupérer après des erreurs logiques ou physiques. La clé de la gestion des pannes réside dans des tests réguliers et automatiques des charges de travail afin de créer des pannes, et dans l’observation de la façon dont ces charges reprennent. Effectuez ces opérations régulièrement et vérifiez que de tels tests sont également lancés après des modifications significatives de la charge de travail. Suivez activement les KPI, ainsi que l’objectif de délai de reprise (RTO) et l’objectif de point de reprise (RPO) pour évaluer la résilience d’une charge de travail (notamment au cours de scénarios de test de panne). Le suivi des KPI vous aidera à identifier et à atténuer les points de défaillance uniques. L’objectif est de tester intégralement vos processus de reprise de charge de travail de telle sorte que vous soyez assuré de récupérer l’ensemble de vos données et de continuer à servir vos clients, même en présence de problèmes persistants. Vos processus de reprise doivent être aussi bien maîtrisés que vos processus de production habituels.