Práctica recomendada 11.4: realice pruebas periódicas de resiliencia - SAP Lens

Práctica recomendada 11.4: realice pruebas periódicas de resiliencia

Pruebe periódicamente la resiliencia en situaciones de errores críticos para demostrar que el software y los procedimientos tienen un resultado predecible. Evalúe cualquier cambio en la arquitectura, software o personal de soporte para determinar si es necesario realizar pruebas adicionales.

Sugerencia 11.4.1: defina las situaciones de error críticas dentro de su alcance en función de los requisitos de su empresa

Debe definir qué situaciones de error críticas puede probaren función de sus requisitos empresariales. Los siguientes son ejemplos de situaciones de error que podrían servir de guía para su análisis. La granularidad, cobertura, clasificación o impacto de las situaciones variarán según sus requisitos y arquitectura.

Ejemplos de situaciones de error Riesgo comparativo de ocurrencia
Mantenimiento planificado o controlado Planificado
Recurso agotado o comprometido (uso elevado de la CPU/sistema de archivos lleno/memoria insuficiente/problemas de almacenamiento) Medio
Error de componente distribuido sin estado (por ejemplo, despachadores web) Medio
Error de componente distribuido con estado (por ejemplo, servidores de aplicaciones) Medio
Único punto de error (base de datos o servicios centrales de SAP) Medio
Error de red o de AZ Bajo
Error en servicio central (DNS/Amazon EFS/llamada a la API) Bajo/medio
Corrupción/eliminación accidental/actividades maliciosas/implementación de código defectuoso Bajo
Error de región Muy bajo

Sugerencia 11.4.2: defina un conjunto de casos de prueba para simular errores críticos

Debería tener un conjunto completo de pruebas definidas para simular las situaciones de error críticas que afectarían su carga de trabajo de SAP.

Debe tener en cuenta que, para algunas situaciones de error, es posible que una simulación no represente completamente el error real que ocurriría. Por ejemplo, para simular un problema de hardware, no puede causar un error en una instancia de EC2, pero, en el caso de las instancias basadas en Nitro, puede generar un pánico del kernel para que la instancia se reinicie.

Además, AWS Fault Injection Simulation está diseñado para ayudar a simular errores dentro de sus recursos de AWS.

Sugerencia 11.4.3: defina el comportamiento esperado para cada caso de prueba

Debería documentar una serie de resultados esperados que sirvan como estándares de referencia de sus pruebas.

Sugerencia 11.4.4: defina un enfoque para evaluar el impacto de un cambio y las pruebas posteriores requeridas

Debería definir un enfoque para evaluar el impacto de un cambio en su entorno y el número de pruebas que se deben realizar tras ese cambio con el fin de garantizar que no invalide su enfoque de disponibilidad y fiabilidad. Entre algunos ejemplos de cambios, se incluyen actualizaciones de software, revisiones y cambios de parámetros.

Sugerencia 11.4.5: defina un cronograma de pruebas

Asegúrese de contar con un cronograma de pruebas en el que se contemple la implementación inicial, las pruebas de los cambios y la validación periódica de su entorno.

Sugerencia 11.4.6: revise los resultados de las pruebas

Según los resultados de la prueba, identifique cualquier mejora en los casos de prueba, la configuración o la arquitectura.

Sugerencia 11.4.7: defina las actividades requeridas para hacer una reversión a un estado previo a la prueba

En cada prueba, debe definir las actividades necesarias para revertir el estado anterior a la prueba. Esto es para garantizar que cada caso de prueba esté aislado de otras pruebas y que la prueba no afecte la disponibilidad y fiabilidad de un sistema de producción.