Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Patrones de resiliencia de Multi-AZ avanzados
Fecha de publicación: 11 de julio de 2023 (Revisiones del documento)
Muchos clientes ejecutan sus cargas de trabajo en configuraciones Multi-AZ de alta disponibilidad. Estas arquitecturas funcionan bien durante los eventos de error binarios, pero suelen tener problemas con los errores grises. Las manifestaciones de este tipo de error pueden ser sutiles y no ser detectadas de forma rápida y definitiva. En este documento técnico, se proporciona información sobre cómo instrumentar las cargas de trabajo para detectar el impacto de los errores grises que se aíslan en una misma zona de disponibilidad y, a continuación, cómo tomar medidas para mitigar ese impacto en la zona de disponibilidad.
Introducción
El objetivo de este documento es ayudarle a implementar de manera más eficaz arquitecturas Multi-AZ resilientes. Una de las prácticas recomendadas para crear sistemas resilientes en las redes de Amazon Virtual Private Cloud
Una Zona de disponibilidad
Muchos servicios de AWS, como Amazon Elastic Compute Cloud (EC2) Auto Scaling
Sin embargo, existe otra categoría de errores, denominados errores grises, cuyas manifestaciones son sutiles y no se detectan de forma rápida y definitiva. Como resultado, se tarda más en mitigar el impacto causado por el error. Este documento se centra en los impactos que los errores grises pueden tener en las arquitecturas Multi-AZ, cómo detectarlos y, por último, cómo mitigarlos.
Las recomendaciones que se proporcionan en este documento técnico se aplican principalmente a clases específicas de cargas de trabajo:
-
Que utilizan principalmente servicios zonales de AWS
-
Que deben mejorar la resiliencia de una sola región
-
Para las que se puede realizar una inversión significativa para crear los patrones de observabilidad y resiliencia necesarios
En estas cargas de trabajo, es posible que no esté dispuesto a hacer algunas o todas las concesiones que se describen en Respuesta a los errores grises, o que no tenga la opción de usar varias regiones. Es probable que estos tipos de cargas de trabajo representen un pequeño subconjunto de su cartera general y, por lo tanto, estas recomendaciones deben considerarse a nivel de carga de trabajo y no a nivel de plataforma.