Patrones de resiliencia de Multi-AZ avanzados

Fecha de publicación: 11 de julio de 2023 (Revisiones del documento)

Muchos clientes ejecutan sus cargas de trabajo en configuraciones Multi-AZ de alta disponibilidad. Estas arquitecturas funcionan bien durante los eventos de error binarios, pero suelen tener problemas con los errores grises. Las manifestaciones de este tipo de error pueden ser sutiles y no ser detectadas de forma rápida y definitiva. En este documento técnico, se proporciona información sobre cómo instrumentar las cargas de trabajo para detectar el impacto de los errores grises que se aíslan en una misma zona de disponibilidad y, a continuación, cómo tomar medidas para mitigar ese impacto en la zona de disponibilidad.

Introducción

El objetivo de este documento es ayudarle a implementar de manera más eficaz arquitecturas Multi-AZ resilientes. Una de las prácticas recomendadas para crear sistemas resilientes en las redes de Amazon Virtual Private Cloud (VPC) es implementar cada carga de trabajo en varias zonas de disponibilidad.

Una Zona de disponibilidad consiste en uno o varios centros de datos discretos con alimentación, redes y conectividad redundantes. El uso de varias zonas de disponibilidad permite operar cargas de trabajo de mayor disponibilidad, tolerancia a errores y escalabilidad de lo que sería posible desde un único centro de datos.

Muchos servicios de AWS, como Amazon Elastic Compute Cloud (EC2) Auto Scaling o Amazon Relational Database Service (Amazon RDS), ofrecen una configuración Multi-AZ. Estos servicios no requieren que cree ninguna herramienta adicional de observabilidad o conmutación por error. Permiten que las cargas de trabajo sean resilientes a los modos de error binarios fácilmente detectables dentro de una Región de AWS que afectan a una única zona de disponibilidad. Puede ser un error físico total de hardware, una pérdida de alimentación o un error de software latente que afecte a la mayoría de los recursos.

Sin embargo, existe otra categoría de errores, denominados errores grises, cuyas manifestaciones son sutiles y no se detectan de forma rápida y definitiva. Como resultado, se tarda más en mitigar el impacto causado por el error. Este documento se centra en los impactos que los errores grises pueden tener en las arquitecturas Multi-AZ, cómo detectarlos y, por último, cómo mitigarlos.

Las recomendaciones que se proporcionan en este documento técnico se aplican principalmente a clases específicas de cargas de trabajo:

Que utilizan principalmente servicios zonales de AWS
Que deben mejorar la resiliencia de una sola región
Para las que se puede realizar una inversión significativa para crear los patrones de observabilidad y resiliencia necesarios

En estas cargas de trabajo, es posible que no esté dispuesto a hacer algunas o todas las concesiones que se describen en Respuesta a los errores grises, o que no tenga la opción de usar varias regiones. Es probable que estos tipos de cargas de trabajo representen un pequeño subconjunto de su cartera general y, por lo tanto, estas recomendaciones deben considerarse a nivel de carga de trabajo y no a nivel de plataforma.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Errores grises