As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Estrutura de análise de resiliência
John Formento, Bruno Emer, Steven Hooper, Jason Barto e Michael Haken, da Amazon Web Services (AWS)
Setembro de 2023(histórico do documento)
Padrões e processos consistentes e repetíveis são uma parte importante da melhoria contínua. Isso também vale para a resiliência dos sistemas distribuídos. O objetivo desta orientação é apresentar uma estrutura de análise de resiliência que forneça uma maneira consistente de analisar os modos de falha e como eles podem afetar suas cargas de trabalho. O uso dessa estrutura em todo o ciclo de vida de sua carga de trabalho, do projeto à operação, ajuda você a melhorar continuamente a resiliência de suas cargas de trabalho a uma variedade mais ampla de modos de falha em potencial de forma consistente e repetível. Isso ajuda a garantir que você atenda aos seus objetivos de resiliência e mantenha as propriedades de resiliência desejadas de suas cargas de trabalho.
Essa estrutura foi desenvolvida por meio da experiência das equipes de campo de arquitetura de soluções da AWS em seu trabalho com clientes de vários setores. Ele é voltado para construtores que podem ter vários cargos, incluindo gerentes de produto, desenvolvedores de software, engenheiros de sistemas, equipes de operações e arquitetos. Essas são as pessoas que sabem mais sobre o sistema, serviço ou produto que está sendo analisado. Usar a estrutura em exercícios contínuos pode ajudá-lo a progredir incrementalmente e atingir seus objetivos de resiliência de longo prazo.
O foco da estrutura é identificar possíveis modos de falha e os controles preventivos e corretivos que você pode usar para mitigar seu impacto. Mesmo que as falhas ocorram em componentes que não estão diretamente sob seu controle, como o aumento das taxas de erro em uma dependência, você precisa considerar como essas falhas podem afetar sua carga de trabalho e como projetar essa carga de trabalho para responder a essas falhas. Em última análise, você deve se concentrar emfalhas às quais você pode responderusando uma mitigação que está sob seu controle.
Este guia descreve a estrutura e, em seguida, discute como identificar e documentar uma carga de trabalho, como aplicar a estrutura a essa carga de trabalho e como avaliar estratégias de mitigação para possíveis falhas encontradas.
Índice