As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
AWS Resilience Hub conceitos
Esses conceitos podem ajudar você a entender melhor a abordagem da AWS Resilience Hub da para ajudar a melhorar a resiliência do aplicativo e evitar interrupções no aplicativo.
Resiliência
A capacidade de manter a disponibilidade e se recuperar de interrupções operacionais e de software em um período de tempo designado.
Objetivo de ponto de recuperação (RPO)
O máximo período de tempo aceitável desde o último ponto de recuperação de dados. Isso determina o que é considerado uma perda aceitável de dados entre o último ponto de recuperação e a interrupção do serviço.
Objetivo de tempo de recuperação (RTO)
Atraso aceitável máximo entre a interrupção e a restauração do serviço. Determina o que é considerado uma janela de tempo aceitável quando o serviço não está disponível.
Objetivo estimado do tempo de recuperação da workload
O objetivo de tempo de recuperação estimado da workload (RTO estimado da workload) é o RTO que seu aplicativo deve atender com base na definição do aplicativo importado e, em seguida, executar uma avaliação.
Objetivo de ponto de recuperação estimado da workload
O objetivo de ponto de recuperação estimado da workload (RPO estimado da workload) é o RPO que seu aplicativo deve atingir com base na definição do aplicativo importado e, em seguida, executar uma avaliação.
Aplicação
Um AWS Resilience Hub aplicativo é uma coleção de recursos AWS suportados que são continuamente monitorados e avaliados para gerenciar sua postura de resiliência.
Componente do aplicativo
Um grupo de AWS recursos relacionados que funcionam e falham como uma única unidade. Por exemplo, se você tiver um banco de dados primário e de réplica, os dois bancos de dados pertencerão ao mesmo componente de aplicativo (AppComponent).
AWS Resilience Hub determina quais AWS recursos podem pertencer a qual tipo de AppComponent. Por exemplo, um DBInstance
pode pertencer a AWS::ResilienceHub::DatabaseAppComponent
, mas não a AWS::ResilienceHub::ComputeAppComponent
.
Status de conformidade do aplicativo
AWS Resilience Hub relata os seguintes tipos de status de conformidade para seus aplicativos.
Política cumprida
Estima-se que o aplicativo atenda às metas de RTO e RPO definidas na política. Todos os seus componentes atendem aos objetivos da política definida. Por exemplo, você selecionou uma meta de RTO e RPO de 24 horas para interrupções em todas AWS as regiões. AWS Resilience Hub pode ver que seus backups são copiados para sua região alternativa. Ainda se espera que você mantenha uma recuperação de um procedimento operacional padrão (SOP) de backup e que o teste e o cronometre. Isso está nas recomendações operacionais e faz parte de sua pontuação geral de resiliência.
Política violada
Não foi possível estimar que o aplicativo atendesse às metas de RTO e RPO definidas na política. Um ou mais deles não satisfazem os objetivos políticos. AppComponents Por exemplo, você selecionou uma meta de RTO e RPO de 24 horas para interrupções em todas as AWS regiões, mas a configuração do seu banco de dados não inclui nenhum método de recuperação entre regiões, como replicação global e cópias de backup.
Não avaliado
O aplicativo requer uma avaliação. Atualmente, não é avaliado ou monitorado.
Alterações detectadas
Há uma nova versão publicada do aplicativo que ainda não foi avaliada.
Detecção de desvios
AWS Resilience Hub executa uma notificação de deriva enquanto executa uma avaliação do seu aplicativo para verificar se as alterações nas AppComponent configurações afetaram o status de conformidade do seu aplicativo. Além disso, ele também verifica e detecta alterações, como adição ou exclusão de recursos nas fontes de entrada do aplicativo, e notifica sobre as mesmas. Para comparação, AWS Resilience Hub usa a avaliação anterior na qual o componente do aplicativo atendeu à política. AWS Resilience Hub detecta os seguintes tipos de desvios:
-
Desvio da política de aplicação — Esse tipo de desvio identifica todos os AppComponents que estavam em conformidade com a política na avaliação anterior, mas não cumpriram na avaliação atual.
-
Desvio de recursos do aplicativo — Esse tipo de desvio identifica todos os recursos desviados na versão atual do aplicativo.
Avaliação de resiliência
AWS Resilience Hub usa uma lista de lacunas e possíveis soluções para medir a eficácia de uma política selecionada para se recuperar e continuar após um desastre. Ele avalia cada componente do aplicativo ou o status de conformidade do aplicativo com a política. Esse relatório inclui recomendações de otimização de custos e referências a possíveis problemas.
Pontuações de resiliência
AWS Resilience Hub gera uma pontuação que indica até que ponto seu aplicativo segue nossas recomendações para atender à política de resiliência, aos alarmes, aos procedimentos operacionais padrão (SOPs) e aos testes do aplicativo.
Tipo de interrupção
AWS Resilience Hub ajuda você a avaliar a resiliência contra os seguintes tipos de interrupções:
Aplicativo
A infraestrutura está íntegra, mas a pilha de aplicativos ou software não opera conforme necessário. Isso pode ocorrer após a implantação de um novo código, alterações na configuração, corrupção de dados ou mau funcionamento das dependências downstream.
Infraestrutura de nuvem
A infraestrutura de nuvem não está funcionando conforme o esperado devido a uma interrupção. Pode ocorrer uma interrupção devido a um erro local em um ou mais componentes. Na maioria dos casos, esse tipo de interrupção é resolvido reinicializando, reciclando ou recarregando os componentes defeituosos.
Interrupção de AZ da infraestrutura de nuvem
Uma ou mais zonas de disponibilidade não estão disponíveis. Esse tipo de interrupção pode ser resolvido com a mudança para uma zona de disponibilidade diferente.
Incidente na região de infraestrutura de nuvem
Uma ou mais regiões não estão disponíveis. Esse tipo de incidente pode ser resolvido mudando para uma Região da AWS diferente.
AWS FIS experimentos
AWS Resilience Hub recomenda experimentos usando AWS FIS ações para verificar a resiliência do aplicativo contra diferentes tipos de interrupções. Essas interrupções incluem aplicativos, infraestrutura, zonas de disponibilidade (AZ) ou Região da AWS incidentes de componentes de aplicativos.
Esses experimentos permitem que você faça o seguinte:
-
Injete uma falha.
-
Verifique se os alarmes podem detectar uma interrupção.
-
Verifique se os procedimentos de recuperação, ou procedimentos operacionais padrão (SOPs), funcionam corretamente para recuperar o aplicativo da interrupção.
Testes para SOPs medir a RTO da carga de trabalho estimada e a RPO da carga de trabalho estimada. Você pode testar diferentes configurações de aplicativos e medir se o RTO e o RPO de saída atendem aos objetivos definidos em sua política.
SOP
Um procedimento operacional padrão (SOP) é um conjunto prescritivo de etapas projetado para recuperar seu aplicativo com eficiência em caso de interrupção ou alarme. Com base na avaliação do aplicativo, AWS Resilience Hub recomenda um conjunto de SOPs e é recomendável preparar, testar e medir antes SOPs de uma interrupção para garantir a recuperação oportuna.