REL01-BP06 Garantir que existe uma lacuna suficiente entre as cotas atuais e o uso máximo para acomodar o failover
Este artigo explica como manter uma distância entre a cota do recurso e seu uso e como isso pode beneficiar sua organização. Quando você termina de usar um recurso, a cota de uso pode continuar contabilizando esse recurso. Isso pode resultar em falha ou em um recurso inacessível. Previna a falha do recurso verificando se as cotas abrangem a sobreposição de recursos inacessíveis e suas substituições. Considere casos de uso como falha de rede, falha na zona de disponibilidade ou falhas regionais ao calcular essa lacuna.
Resultado desejado: falhas pequenas ou grandes nos recursos ou na acessibilidade dos recursos podem ser cobertas dentro dos limites atuais do serviço. As falhas de zona, falhas de rede ou até mesmo falhas regionais foram consideradas no planejamento de recursos.
Práticas comuns que devem ser evitadas:
-
Configurar cotas de serviço com base nas necessidades atuais sem considerar os cenários de failover.
-
Não considerar as entidades principais de estabilidade estática ao calcular a cota de pico de um serviço.
-
Não considerar o potencial de recursos inacessíveis no cálculo da cota total necessária para cada região.
-
Não considerar os limites de isolamento de falhas de serviço da AWS para alguns serviços e seus padrões de uso possivelmente anormais.
Benefícios de implementar esta prática recomendada: quando eventos de interrupção do serviço afetam a disponibilidade da aplicação, use a nuvem para implementar estratégias para se recuperar desses eventos. Um exemplo de estratégia é criar recursos adicionais para substituir recursos inacessíveis e acomodar condições de failover sem esgotar seu limite de serviço.
Nível de risco exposto se esta prática recomendada não for estabelecida: Médio
Orientação para implementação
Ao avaliar os limites de cota, considere casos de failover que podem ocorrer devido a algum dano. Considere os seguintes casos de falha:
-
Uma VPC interrompida ou inacessível.
-
Uma sub-rede inacessível.
-
Uma zona de disponibilidade degradada que afeta a acessibilidade dos recursos.
-
Rotas de rede ou pontos de ingresso e egresso são bloqueados ou alterados.
-
Uma região degradada que afeta a acessibilidade dos recursos.
-
Um subconjunto de recursos afetados por uma falha em uma região ou zona de disponibilidade.
A decisão de fazer o failover é única para cada situação, já que o impacto na empresa pode variar drasticamente. Aborde o planejamento da capacidade dos recursos no local de failover e as cotas dos recursos antes de decidir fazer o failover de uma aplicação ou serviço.
Considere picos de atividade acima do normal ao revisar as cotas de cada serviço. Esses picos podem estar relacionados a recursos que estão inacessíveis por questões de rede ou permissões, mas ainda estão ativos. Os recursos ativos não encerrados são contabilizados no limite de cota do serviço.
Etapas de implementação
-
Mantenha distância suficiente entre a cota de serviço e o uso máximo para acomodar um failover ou uma perda de acessibilidade.
-
Determine suas cotas de serviço. Considere os padrões típicos de implantação, os requisitos de disponibilidade e o crescimento do consumo.
-
Solicite aumentos de cota, se necessário. Preveja um tempo de espera para a solicitação de aumento de cota.
-
Determine os requisitos de confiabilidade (também conhecidos como "número de noves").
-
Entenda possíveis cenários de falha, como perda de um componente, zona de disponibilidade ou região.
-
Estabeleça a metodologia de implantação (por exemplo, canário, azul/verde, vermelho/preto ou gradual).
-
Inclua uma reserva adequada do limite atual. Um exemplo de buffer pode ser de 15%.
-
Inclua cálculos para estabilidade estática (por zona e região), quando apropriado.
-
Planeje o aumento do consumo (por exemplo, monitore suas tendências de consumo).
-
Considere o impacto da estabilidade estática das suas workloads mais críticas. Avalie os recursos em conformidade com um sistema estaticamente estável em todas as regiões e zonas de disponibilidade.
-
Considere usar reservas de capacidade sob demanda para programar a capacidade à frente de qualquer failover. Isso pode ser uma estratégia útil durante os cronogramas empresariais mais críticos a fim de reduzir possíveis riscos de obter a quantidade e o tipo certo de recursos durante o failover.
Recursos
Práticas recomendadas relacionadas:
Documentos relacionados:
-
Pilar Confiabilidade do AWS Well-Architected Framework: Disponibilidade
-
AWS Service Quotas (antigamente conhecido como Limites de serviço)
-
Verificações de práticas recomendadas do AWS Trusted Advisor (consulte a seção Limites de serviço)
-
Parceiro da APN: parceiros que podem ajudar no gerenciamento de configuração
-
Gerenciar o ciclo de vida da conta em ambientes SaaS de conta por locatário na AWS
-
Gerenciar e monitorar o controle de utilização de APIs em suas workloads
-
Visualizar recomendações do AWS Trusted Advisor em grande escala com o AWS Organizations
-
Automatizar aumentos de limites de serviço e suporte corporativo com o AWS Control Tower
Vídeos relacionados:
Ferramentas relacionadas: