Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
REL12-BP02 Réaliser une analyse post-incident
Passez en revue les événements ayant un impact sur le client et identifiez les facteurs adjuvants et les mesures préventives. Utilisez ces informations pour développer des mesures d’atténuation afin de limiter ou d’empêcher la récurrence. Développez des procédures pour fournir des réponses rapides et efficaces. Publiez, le cas échéant, les facteurs adjuvants et les mesures correctives adaptées au public ciblé. Vous devez disposer d’une méthode pour communiquer ces causes à d’autres si nécessaire.
Évaluez pourquoi les tests existants n’ont pas permis de résoudre le problème. Ajoutez des tests pour ce cas si aucun test correspondant n’existe.
Résultat souhaité : vos équipes ont adopté une approche cohérente et convenue pour gérer l’analyse post-incident. L'un des mécanismes est le processus de correction d'erreur (COE)
Anti-modèles courants :
-
Trouver des facteurs adjuvants sans pour autant continuer à chercher plus en profondeur d’autres problèmes et approches potentiels pour atténuer les risques.
-
Identification limitée aux causes d’erreur humaine et sans formation ou automatisation pouvant empêcher les erreurs humaines.
-
Se concentrer sur les reproches plutôt que sur la compréhension des causes profondes, ce qui crée une culture de la peur et empêche de communiquer ouvertement
-
Absence de partage d’informations, qui entrave la circulation des résultats de l’analyse de l’incident et empêche les autres de bénéficier des enseignements tirés
-
Absence de mécanisme permettant de capturer les connaissances institutionnelles, ce qui engendre une perte d’informations précieuses en ne conservant pas les enseignements tirés sous la forme de bonnes pratiques actualisées, et entraîne la répétition d’incidents ayant des causes profondes identiques ou similaires
Avantages du respect de cette bonne pratique : une analyse post-incident et le partage des résultats permettent à d’autres charges de travail d’atténuer les risques si elles ont mis en œuvre les mêmes facteurs adjuvants. Elle permet aussi de mettre en œuvre l’atténuation des risques ou la récupération automatisée avant qu’un incident ne se produise.
Niveau d’exposition au risque si cette bonne pratique n’est pas respectée : élevé
Directives d’implémentation
Une bonne analyse post-incident permet de proposer des solutions courantes pour les problèmes avec des modèles d’architecture utilisés dans d’autres compartiments de vos systèmes.
L'une des pierres angulaires du COE processus consiste à documenter et à résoudre les problèmes. Il est recommandé de définir une méthode normalisée pour documenter les causes profondes et de veiller à ce qu’elles soient examinées et traitées. Attribuez clairement la responsabilité du processus d’analyse post-incident. Désignez une équipe ou une personne chargée de superviser les enquêtes et le suivi de l’incident.
Encouragez une culture axée sur l’apprentissage et l’amélioration plutôt que sur les reproches. Insistez sur le fait que l’objectif est de prévenir de futurs incidents, et non de pénaliser des individus.
Élaborez des procédures bien définies pour mener les analyses post-incident. Ces procédures doivent décrire les étapes à suivre, les informations à collecter et les principales questions à aborder lors de l’analyse. Enquêtez en profondeur sur les incidents, en allant au-delà des causes immédiates afin d’identifier les causes profondes et les facteurs contributifs. Utilisez des techniques telles que les « cinq pourquoi »
Tenez un répertoire des enseignements tirés des analyses des incidents. Ces connaissances institutionnelles peuvent servir de référence pour les incidents futurs et les efforts de prévention. Partagez les résultats et les réflexions tirées des analyses post-incident, et envisagez d’organiser des réunions de synthèse post-incident ouvertes à tous pour discuter des enseignements tirés.
Étapes d’implémentation
-
Veillez à ce que l’analyse post-incident soit exempte de tout reproche. Cela permet aux personnes impliquées dans l’incident de faire preuve d’objectivité quant aux actions correctives proposées, et de promouvoir une auto-évaluation et une collaboration honnêtes entre les équipes.
-
Définissez une méthode standardisée pour documenter les problèmes critiques. Voici un exemple de structure :
-
Que s’est-il passé ?
-
Quel a été l’impact sur vos clients et votre activité ?
-
Quelle était la cause profonde ?
-
Quelles sont les données à votre disposition pour étayer votre raisonnement ?
-
Par exemple, des métriques et des graphiques.
-
-
Quelles ont été les principales répercussions, notamment en termes de sécurité ?
-
Lors de la conception des charges de travail, vous faites un compromis entre les piliers en fonction de votre activité. Ces décisions professionnelles peuvent orienter vos priorités en matière d’ingénierie. Vous pouvez opter pour l’optimisation afin de réduire les coûts au détriment de la fiabilité dans les environnements de développement ou, pour les solutions stratégiques, vous pouvez optimiser la fiabilité pour des coûts plus importants. La sécurité est toujours une priorité, car vous devez protéger vos clients.
-
-
Quelles leçons avez-vous apprises ?
-
Quelles mesures correctives allez-vous prendre ?
-
Éléments d’action
-
Éléments connexes
-
-
-
Élaborez des procédures opérationnelles standard bien définies pour mener les analyses post-incident.
-
Mettez en place un processus standardisé de signalement des incidents. Documentez tous les incidents de manière exhaustive, y compris le rapport d’incident initial, les journaux, les communications et les mesures prises pendant l’incident.
-
N’oubliez pas qu’un incident n’est pas forcément une panne. Il peut s’agir d’un accident évité de justesse ou d’un système qui fonctionne de manière inattendue tout en remplissant sa fonction.
-
Améliorez sans cesse votre processus d’analyse post-incident en fonction des retours et des enseignements tirés.
-
Capturez les principales conclusions dans un système de gestion des connaissances et examinez les modèles qui devraient être ajoutés aux guides du développeur ou aux listes de contrôle de prédéploiement.
Ressources
Documents connexes :
Vidéos connexes :