Objetivos de nivel de servicio (SLO)
Puede usar Application Signals para crear objetivos de nivel de servicio para los servicios de las operaciones comerciales críticas. Al crear SLO para estos servicios, podrá realizar un seguimiento de los mismos en el panel de control de los SLO, lo que le permitirá tener una vista rápida de sus operaciones más importantes.
Además de crear una vista rápida que sus operadores pueden utilizar para ver el estado actual de las operaciones críticas, puede utilizar los SLO para realizar un seguimiento del rendimiento a largo plazo de los servicios y asegurarse de que cumplen sus expectativas. Si tiene acuerdos de nivel de servicio con los clientes, los SLO son una excelente herramienta para asegurar su cumplimiento.
La evaluación del estado de sus servicios con los SLO comienza con el establecimiento de objetivos claros y medibles basados en métricas de rendimiento clave: indicadores de nivel de servicio (SLI). Un SLO hace un seguimiento del rendimiento del SLI en relación con el umbral y el objetivo que establezca, e informa qué tan lejos o cerca está el rendimiento de la aplicación del umbral.
Application Signals lo ayuda a establecer los SLO en sus métricas de rendimiento clave. Application Signals recopila de forma automática las métricas de Latency
y Availability
de cada servicio y operación que detecta, y estas métricas suelen ser ideales para utilizarlas como SLI. Con el asistente de creación de SLO, puede utilizar estas métricas para sus SLO. A continuación, puede realizar un seguimiento del estado de todos los SLO con los paneles de Application Signals.
Puede configurar los SLO para operaciones específicas a las que llame o utilice su servicio. Puede usar cualquier métrica o expresión métrica de CloudWatch como un SLI, además de usar las métricas de Latency
y Availability
.
La creación de SLO es muy importante para aprovechar al máximo CloudWatch Application Signals. Después de crear los SLO, puede ver su estado en la consola de Application Signals para ver rápidamente cuáles de estos servicios y operaciones esenciales funcionan de forma correcta y cuáles no. El seguimiento con los SLO ofrece las siguientes ventajas principales:
A los operadores de servicios les resulta más fácil comparar el estado operativo actual de los servicios críticos en comparación con el SLI. Luego, pueden clasificar e identificar con rapidez los servicios y las operaciones que no funcionen de forma correcta.
Puede realizar un seguimiento del rendimiento de sus servicios en relación con objetivos empresariales cuantificables durante periodos de tiempo más largos.
Al elegir en qué aspectos establecer los SLO, prioriza lo que es importante para usted. Los paneles de Application Signals presentan automáticamente información sobre lo que ha priorizado.
Al crear un SLO, también puede optar por crear alarmas de CloudWatch al mismo tiempo para supervisar los SLO. Puede establecer alarmas que supervisen los incumplimientos del umbral y también los niveles de advertencia. Estas alarmas pueden notificarle automáticamente si las métricas de los SLO superan el umbral que estableció o si se acercan a un umbral de advertencia. Por ejemplo, un SLO que se acerca a su umbral de advertencia puede indicarle que su equipo podría necesitar reducir la pérdida de la aplicación para asegurarse de que se cumplen los objetivos de rendimiento a largo plazo.
Temas
- Conceptos del SLO
- Cálculo del presupuesto de errores y rendimiento de los SLO basados en periodos
- Cálculo del presupuesto de errores y rendimiento de los SLO basados en solicitudes
- Calcular las tasas de consumo y, de manera opcional, configurar alarmas de tasa de consumo
- Creación de un SLO
- Visualización y clasificación del estado del SLO
- Edición de un SLO existente
- Eliminación de un SLO
Conceptos del SLO
Un SLO incluye los siguientes componentes:
Un indicador de nivel de servicio (SLI), que es una métrica de rendimiento clave que se especifica. Representa el nivel de rendimiento deseado para su aplicación. Application Signals recopila de forma automática las métricas de
Latency
yAvailability
para los servicios y operaciones que detecta, y estas métricas suelen ser ideales para establecer los SLO.Usted elige el umbral que desea usar para su SLI. Por ejemplo, 200 ms de latencia.
Un objetivo o un objetivo de rendimiento, que es el porcentaje de tiempo o solicitudes que se espera para que el SLI alcance el umbral en cada intervalo de tiempo. Los intervalos de tiempo pueden ser tan cortos como horas o tan largos como un año.
Los intervalos pueden ser intervalos de calendario o intervalos continuos.
Los intervalos de calendario se alinean con el calendario, como un SLO del que se hace un seguimiento por mes. CloudWatch ajusta automáticamente las cifras del estado, presupuesto y rendimiento en función de la cantidad de días de un mes. Los intervalos de calendario son más adecuados para los objetivos empresariales que se miden de forma alineada con el calendario.
Los intervalos continuos se calculan de forma continua. Los intervalos continuos son más adecuados para realizar un seguimiento de la experiencia reciente de los usuarios en la aplicación.
El periodo es un periodo de tiempo más corto y muchos periodos forman un intervalo. El rendimiento de la aplicación se compara con el del SLI durante cada periodo del intervalo. Para cada periodo, se determina que la aplicación ha alcanzado o no el rendimiento necesario.
Por ejemplo, un objetivo del 99 % con un intervalo de calendario de un día y un periodo de 1 minuto significa que la aplicación debe cumplir o alcanzar el umbral de éxito durante el 99 % de los periodos de 1 minuto del día. Si es así, se cumplen los SLO de ese día. Al día siguiente hay un nuevo intervalo de evaluación y la aplicación debe cumplir o alcanzar el umbral de éxito durante el 99 % de los periodos de 1 minuto del segundo día para cumplir con los SLO correspondientes a ese segundo día.
Un SLI puede basarse en una de las nuevas métricas de aplicación estándar recopiladas por Application Signals. Alternativamente, puede ser cualquier métrica o expresión métrica de CloudWatch. Las métricas de aplicación estándar que puede usar para un SLI son Latency
y Availability
. Availability
representa las respuestas satisfactorias divididas entre el total de solicitudes. Se calcula como (1: tasa de errores)*100, donde las respuestas a los errores son errores 5xx
. Las respuestas correctas son respuestas sin errores 5XX
. Las respuestas 4XX
se consideran satisfactorias.
Cálculo del presupuesto de errores y rendimiento de los SLO basados en periodos
Cuando consulta la información sobre un SLO, ve su estado de funcionamiento actual y el presupuesto de errores. El presupuesto de errores es la cantidad de tiempo dentro del intervalo que puede superar el umbral y, aun así, permitir que se cumpla el SLO. El presupuesto total de errores es la cantidad total de tiempo de incumplimiento que se puede tolerar durante todo el intervalo. El presupuesto de errores restante es la cantidad restante de tiempo de incumplimiento que se puede tolerar durante el intervalo actual. Esto ocurre después de restar del total del presupuesto de errores el tiempo de incumplimiento que ya transcurrió.
La siguiente figura ilustra los conceptos del rendimiento y el presupuesto de errores para un objetivo con un intervalo de 30 días, periodos de 1 minuto y un objetivo de rendimiento del 99 %. 30 días incluyen 43 200 periodos de 1 minuto. El 99 % de 43 200 es 42 768, por lo que 42 768 minutos durante el mes deben funcionar de forma correcta para cumplir con el SLO. En lo que va del intervalo actual, 130 de los periodos de 1 minuto no funcionaban de forma correcta.
![Diagrama de barras que muestra los periodos totales de un intervalo de SLO y las cifras de rendimiento y presupuesto de errores de este SLO.](images/SLO-budget.png)
Determinación del éxito dentro de cada periodo
Dentro de cada periodo, los datos del SLI se añaden en un único punto de datos en función de la estadística utilizada para el SLI. Este punto de datos representa la duración total del periodo. Ese único punto de datos se compara con el umbral del SLI para determinar si el periodo es correcto. Si aparecen periodos incorrectos durante el intervalo de tiempo actual en el panel de control, los operadores de servicio pueden avisar que es necesario clasificar el servicio.
Si se determina que el periodo es incorrecto, toda la duración del periodo se considera fallida y se tiene en cuenta en el presupuesto de errores. El seguimiento del presupuesto de errores permite saber si el servicio logra el rendimiento que desea durante un periodo de tiempo más prolongado.
Cálculo del presupuesto de errores y rendimiento de los SLO basados en solicitudes
Una vez que haya creado un SLO, puede recuperar sus informes de presupuesto de errores. Un presupuesto de errores es la cantidad de solicitudes que su aplicación puede no cumplir con el objetivo del SLO y, aun así, hacer que su aplicación cumpla con el objetivo. En el caso de un SLO basado en solicitudes, el presupuesto de errores restante es dinámico y puede aumentar o disminuir, en función de la proporción entre las solicitudes válidas y el total de solicitudes
En la siguiente tabla se muestra el cálculo de un SLO basado en solicitudes con un intervalo de 5 días y un objetivo de rendimiento del 85 %. En este ejemplo, supondremos que no hay tráfico antes del día 1. El SLO no alcanzó el objetivo el día 10.
Tiempo | Número total de solicitudes | Solicitudes erróneas | Total acumulado de solicitudes en los últimos 5 días | Total acumulado de solicitudes correctas en los últimos 5 días | Rendimiento basado en solicitudes | Número total de solicitudes de presupuesto | Solicitudes de presupuesto restantes |
---|---|---|---|---|---|---|---|
Día 1 |
10 | 1 |
10 |
9 |
9/10=90 % |
1.5 |
0,5 |
Día 2 |
5 |
1 |
15 |
13 |
13/15=86 % |
2.3 |
0.3 |
Día 3 |
1 |
1 |
16 |
13 |
13/16=81 % |
2.4 |
-0,6 |
Día 4 |
24 |
0 |
40 |
37 |
37/40=92 % |
6.0 |
3.0 |
Día 5 |
20 |
5 |
60 |
52 |
52/60=87 % |
9.0 |
1.0 |
Día 6 |
6 |
2 |
56 |
47 |
47/56=84 % |
8,4 |
-0,6 |
Día 7 |
10 |
3 |
61 |
50 |
50/61=82 % |
9,2 |
-1,8 |
Día 8 |
15 |
6 |
75 |
59 |
59/75=79 % |
11,3 |
-4,7 |
Día 9 |
12 |
1 |
63 |
46 |
46/63=73 % |
9,5 |
-7,5 |
Día 10 |
5 |
57 |
40 |
40/57=70 % |
8,5 |
-8,5 | |
Rendimiento final de los últimos 5 días |
|
70 % |
Calcular las tasas de consumo y, de manera opcional, configurar alarmas de tasa de consumo
Puede usar Application Signals para calcular las tasas de consumo para los objetivos de nivel de servicio. La tasa de consumo es una métrica que indica la rapidez con la que el servicio consume el presupuesto de errores en relación con el objetivo de rendimiento del SLO. Se expresa como un factor múltiple de la tasa de error de referencia.
La tasa de consumo se calcula en función de la tasa de error de referencia, que depende del objetivo de rendimiento. El objetivo de rendimiento es el porcentaje de periodos en correcto funcionamiento o solicitudes cumplidas que deben alcanzarse para cumplir el objetivo del SLO. La tasa de error de referencia resulta de restar al 100 % el porcentaje del objetivo de rendimiento, y consumiría exactamente el total del presupuesto de errores al final del intervalo de tiempo del SLO. Por lo tanto, un SLO con un objetivo de rendimiento del 99 % tendría una tasa de error de referencia del 1 %.
Al supervisar la tasa de consumo podemos saber lo lejos que estamos de la tasa de error de referencia. Si volvemos al ejemplo de un objetivo de rendimiento del 99 %, se cumple lo siguiente:
Tasa de consumo = 1: si la tasa de consumo se mantiene exactamente en la tasa de error de referencia en todo momento, cumplimos exactamente con el objetivo del SLO.
Tasa de consumo < 1: si la tasa de consumo es inferior a la tasa de error de referencia, podemos superar el objetivo del SLO.
Tasa de consumo > 1: si la tasa de consumo es superior a la tasa de error de referencia, es posible que no cumplamos el objetivo del SLO.
Al crear tasas de consumo para sus SLO, también puede optar por crear alarmas de CloudWatch al mismo tiempo para supervisar las tasas de consumo. Puede establecer un límite para las tasas de consumo y las alarmas pueden notificarle automáticamente si las métricas de la tasa de consumo superan el límite establecido. Por ejemplo, una tasa de consumo que se acerca al límite puede indicar que su SLO consume el presupuesto de error más rápido de lo que su equipo puede soportar y tendrían que desacelerar la pérdida en la aplicación y asegurarse de que se cumplen los objetivos de rendimiento a largo plazo.
La creación de alarmas genera cargos. Para obtener más información sobre los precios de CloudWatch, consulte Precios de Amazon CloudWatch
Cálculo de la tasa de consumo
Para calcular la tasa de consumo, especifique un intervalo de revisión. El intervalo de revisión es el tiempo durante el que se mide la tasa de error.
burn rate = error rate over the look-back window / (100% - attainment goal)
nota
Cuando no hay datos sobre el periodo de velocidad de combustión, Application Signals calcula la velocidad de combustión en función del rendimiento alcanzado.
La tasa de error es la relación entre el número de eventos incorrectos y el número total de eventos durante el intervalo de tasa de consumo:
En el caso de los SLO basados en periodos, la tasa de error se calcula dividiendo los periodos incorrectos por el total de periodos. El total de periodos representa la totalidad de los periodos durante el intervalo de revisión.
En el caso de los SLO basados en solicitudes, la medida se basa en las solicitudes incorrectas divididas por el total de solicitudes. El número total de solicitudes es el número de solicitudes durante el intervalo de revisión.
El intervalo de revisión debe ser un múltiplo del periodo del SLO y debe ser inferior al intervalo del SLO.
Determinar el límite adecuado para una alarma de tasa de consumo
Al configurar una alarma de tasa de consumo, debe elegir un valor de tasa de consumo como límite para la alarma. El valor de este límite depende de la duración del intervalo del SLO y del intervalo de revisión, así como del método o modelo mental que su equipo quiera adoptar. Hay dos métodos principales disponibles para determinar el límite.
Método 1: determina el porcentaje del presupuesto total de errores estimado que su equipo está dispuesto a consumir en el intervalo de revisión.
Si quiere recibir una alarma cuando se gaste un X % del presupuesto de errores estimado en las últimas horas de revisión de la tasa de consumo, el límite para la tasa de consumo es el siguiente:
burn rate threshold = X% * SLO interval length / look-back window size
Por ejemplo, el 5 % de un presupuesto de error de 30 días (720 horas) gastado en más de una hora requiere una tasa de consumo de 5% * 720 / 1 = 36
. Por lo tanto, si el intervalo de revisión de la tasa de consumo es de 1 hora, se establece el límite de la tasa de consumo en 36.
Puede utilizar la consola CloudWatch para crear alarmas de tasa de consumo mediante este método. Puede especificar el número X y el límite se determina mediante la fórmula anterior.
La duración del intervalo del SLO se determina en función del tipo de intervalo del SLO:
En el caso de los SLO con un intervalo continuo es la duración del intervalo en horas.
Para los SLO con intervalos basados en el calendario:
Si la unidad es de días o semanas, será la duración del intervalo en horas.
Si la unidad es un mes, se toman 30 días como duración estimada y se convierten en horas.
Método 2: determine el tiempo hasta que se agote el presupuesto para el siguiente intervalo
Para que la alarma le avise cuando la tasa de error actual del intervalo de revisión más reciente indique que faltan menos de X horas para agotar el presupuesto (suponiendo que el presupuesto restante sea actualmente del 100 %), puede utilizar la siguiente fórmula para determinar el umbral de la tasa de consumo.
burn rate threshold = SLO interval length / X
Hacemos hincapié en que el tiempo hasta el agotamiento del presupuesto (X) de la fórmula anterior supone que el presupuesto total restante es del 100 % y, por lo tanto, no tiene en cuenta la cantidad de presupuesto que ya se ha gastado en este intervalo. También podemos considerarlo como el tiempo que queda hasta que se agote el presupuesto para el siguiente intervalo.
Tutoriales para establecer alarmas de tasa de consumo
Como ejemplo se toma un SLO con un intervalo continuo de 28 días. La configuración de una alarma de tasa de consumo para este SLO implica dos pasos:
Configure la tasa de consumo y el intervalo de revisión.
Cree una alarma de CloudWatch que supervise la tasa de consumo.
Para empezar, determine qué parte del presupuesto total de errores está dispuesto a gastar en un periodo determinado. En otras palabras, establezca su objetivo con esta frase: “Quiero recibir una alerta cuando se consuma el X % de mi presupuesto total de errores en M minutos”.
Por ejemplo, puede establecer el objetivo de recibir alertas cuando se consuma el 2 % del presupuesto total de errores en un plazo de 60 minutos.
Para establecer la tasa de consumo, primero defina el intervalo de revisión. El intervalo de revisión es M, que en este ejemplo es de 60 minutos.
A continuación debe crear la alarma de CloudWatch. Al hacerlo debe especificar un límite para la tasa de consumo. Si la tasa de consumo supera este límite, la alarma se lo notificará. Para encontrar el límite, utilice la siguiente fórmula:
burn rate threshold = X% * SLO interval length/ look-back window size
En este ejemplo, X es 2 porque queremos recibir una alerta si se consume el 2 % del presupuesto de error en 60 minutos. La duración del intervalo es de 40 320 minutos (28 días) y 60 minutos es el intervalo de revisión, por lo que la respuesta es:
burn rate threshold = 2% * 40,320 / 60 = 13.44.
En este ejemplo, se establece 13,44 como límite para la alarma.
Varias alarmas con intervalos diferentes
Al configurar las alarmas en varios intervalos de revisión, se pueden detectar rápidamente los incrementos bruscos de la tasa de error con un intervalo breve así como también los incrementos más pequeños en la tasa de error que pueden agotar el presupuesto de errores si pasan desapercibidos.
Además se puede configurar una alarma compuesta para una tasa de consumo con un intervalo largo o para un intervalo corto (1/12 del intervalo largo) y recibir información únicamente cuando ambas tasas de consumo superen un límite. De esta forma, puede asegurarse de recibir alertas solo en caso de situaciones que aún estén ocurriendo. Para obtener más información acerca de las alarmas de CloudWatch, consulte Combinación de alarmas.
nota
Es posible configurar una alarma de métricas en una tasa de consumo al crear la tasa de consumo. Para configurar una alarma compuesta en múltiples alarmas de tasa de consumo, debe seguir las instrucciones que aparecen en Crear una alarma compuesta.
Una estrategia de alarma compuesta que se recomienda en el libro de trabajo de Ingeniería de fiabilidad de Google Site
Una alarma compuesta que vigila un par de alarmas, una con un intervalo de una hora y otra con un intervalo de cinco minutos.
Una segunda alarma compuesta que vigila un par de alarmas, una con un intervalo de seis horas y otra con un intervalo de treinta minutos.
Una tercera alarma compuesta que vigila un par de alarmas, una con un intervalo de tres días y otra con un intervalo de seis horas.
A continuación se muestran los pasos necesarios para realizar la configuración.
-
Cree cinco tasas de consumo, con intervalos de cinco minutos, treinta minutos, una hora, seis horas y tres días.
Cree los siguientes tres pares de alarmas de CloudWatch. Cada par incluye un intervalo largo y un intervalo corto, equivalente a una 1/12 del intervalo largo y los límites se determinan siguiendo los pasos que aparecen en Determinar el límite adecuado para una alarma de tasa de consumo. Cuando calcule el límite para cada alarma del par, utilice el intervalo de revisión más largo del par en el cálculo.
Alarmas en las tasas de consumo de 1 hora y 5 minutos (el límite se determina en función del 2 % del presupuesto total)
Alarmas en las tasas de consumo de 6 horas y 30 minutos (el límite se determina en función del 5 % del presupuesto total)
Alarmas en las tasas de consumo de 3 días y 6 horas (el límite se determina en función del 10 % del presupuesto total)
Para cada uno de estos pares, cree una alarma compuesta para recibir una alerta cuando ambas alarmas individuales pasen al estado de ALARMA. Para obtener más información sobre la creación de alarmas compuestas, consulte Crear una alarma compuesta.
Por ejemplo, si las alarmas del primer par (intervalo de una hora e intervalo de cinco minutos) tienen el nombre
OneHourBurnRate
yFiveMinuteBurnRate
, la regla de alarma compuesta de CloudWatch seríaALARM(OneHourBurnRate) AND ALARM(FiveMinuteBurnRate)
La estrategia anterior solo es posible para los SLO con intervalos de al menos tres horas. En el caso de los SLO con intervalos de menor duración, se recomienda comenzar con un par de alarmas de tasa de consumo, en las que una de ellas tenga un intervalo de revisión equivalente a 1/12 del intervalo de revisión de la otra alarma. Luego configure una alarma compuesta en este par.
Creación de un SLO
Le recomendamos que establezca los SLO de latencia y disponibilidad en sus aplicaciones críticas. Estas métricas recopiladas por Application Signals se alinean con los objetivos empresariales comunes.
También puede establecer los SLO en cualquier métrica de CloudWatch o en cualquier expresión matemática métrica que dé como resultado una serie temporal individual.
La primera vez que cree un SLO en su cuenta, CloudWatch creará automáticamente el rol vinculado al servicio AWSServiceRoleForCloudWatchApplicationSignals en su cuenta, si aún no existe. Este rol vinculado al servicio permite a CloudWatch recopilar datos de Registros de CloudWatch, datos de seguimiento de X-Ray, datos de métricas de CloudWatch y datos de etiquetado de las aplicaciones de su cuenta. Para obtener más información acerca de los roles vinculados a servicio de CloudWatch, consulte Uso de roles vinculados a servicios para CloudWatch.
Al crear un SLO, debe especificar si se trata de un SLO basado en periodos o de un SLO basado en solicitudes. Cada tipo de SLO tiene una forma diferente de evaluar el rendimiento de la aplicación en relación con su objetivo de rendimiento.
Un SLO basado en periodos utiliza periodos de tiempo definidos dentro de un intervalo de tiempo total específico. Para cada periodo de tiempo, Application Signals determina si la aplicación cumplió su objetivo. La tasa de rendimiento se calcula como
number of good periods/number of total periods
.Por ejemplo, en el caso de un SLO basado en periodos, cumplir un objetivo de rendimiento del 99,9 % significa que, dentro del intervalo, la aplicación debe cumplir su objetivo de rendimiento durante al menos el 99,9 % de los periodos.
Un SLO basado en solicitudes no utiliza periodos de tiempo predefinidos. En cambio, el SLO mide
number of good requests/number of total requests
durante el intervalo. En cualquier momento, puedes encontrar la relación entre las solicitudes válidas y el total de solicitudes para el intervalo hasta el momento que especifiques, y compararla con el objetivo establecido en tu SLO.
Creación de un SLO basado en periodos
Utilice el siguiente procedimiento para crear un SLO basado en periodos.
Para crear un SLO basado en periodos:
Abra la consola de CloudWatch en https://console.aws.amazon.com/cloudwatch/
. En el panel de navegación, elija Objetivos de nivel de servicio (SLO).
Seleccione Crear SLO.
Escriba un nombre para el SLO. Incluir el nombre de un servicio u operación, junto con las palabras clave adecuadas, como latencia o disponibilidad, lo ayudará a identificar rápidamente lo que indica el estado del SLO durante la clasificación.
En Establecer el indicador de nivel de servicio (SLI), realice una de las siguientes operaciones:
Para establecer el SLO en cualquiera de las métricas de la aplicación estándar
Latency
oAvailability
:Seleccione Operación de servicio.
Seleccione el servicio que supervisará este SLO.
Seleccione la operación que supervisará este SLO.
En Seleccionar un método de cálculo, elija Periodos.
Los menús desplegables Seleccionar servicio y Seleccionar operación se rellenan con los servicios y operaciones que han estado activos en las últimas 24 horas.
Seleccione Disponibilidad o Latencia y, a continuación, establezca el umbral.
Para establecer el SLO en cualquier métrica de CloudWatch o en una expresión matemática métrica de CloudWatch:
Seleccione Métrica de CloudWatch.
Haga clic en Seleccionar métrica de CloudWatch.
Aparece la pantalla Seleccionar métrica. Utilice las pestañas Examinar o Consulta para buscar la métrica que desee o cree una expresión matemática métrica.
Después de seleccionar la métrica que desee, seleccione la pestaña Métricas diagramadas y seleccione la Estadística y el Período que desee usar para el SLO. A continuación, elija Select metric (Seleccionar métrica).
Para obtener más información sobre estas pantallas, consulte Representar gráficamente una métrica y Añadir una expresión matemática a un gráfico de CloudWatch.
En Seleccionar un método de cálculo, elija Periodos.
En Establecer condiciones, seleccione un operador de comparación y un umbral para que el SLO lo utilice como indicador de éxito.
Si seleccionó Operación de servicio en el paso 5, si lo desea, puede seleccionar Ajustes adicionales y, a continuación, ajustar la duración del periodo de este SLO.
Establezca el intervalo y el objetivo de rendimiento del SLO. Para obtener más información sobre los intervalos y los objetivos de rendimiento y cómo funcionan de forma conjunta, consulte Conceptos del SLO.
(Opcional) Para establecer tasas de consumo de SLO siga estos pasos:
Defina la duración (en minutos) del intervalo de revisión para la tasa de consumo. Para obtener información sobre cómo cambiar la duración, consulte Tutoriales para establecer alarmas de tasa de consumo.
Para crear más tasas de consumo para este SLO, seleccione Agregar más tasas de consumo y establezca el intervalo de revisión para ver las tasas de consumo adicionales.
(Opcional) Cree alarmas de tasa de consumo mediante el siguiente método:
En Configurar alarmas de tasa de consumo active la casilla de verificación de cada tasa de consumo para la que desee crear una alarma. Para cada una de esas alarmas haga lo siguiente:
Especifique el tema de Amazon SNS para usarlo en las notificaciones cuando la alarma entre en estado de ALARMA.
Establezca un límite de tasa de consumo o especifique el porcentaje del presupuesto total estimado utilizado en el último intervalo de revisión por debajo del cual desea permanecer. Si establece el porcentaje del presupuesto total estimado consumido, el límite de la tasa de consumo se calcula automáticamente y se utiliza en la alarma. Para decidir qué límite establecer o para entender cómo se utiliza esta opción para calcular el límite de la tasa de consumo, consulte Determinar el límite adecuado para una alarma de tasa de consumo.
(Opcional) Establezca una o más alarmas de CloudWatch o un umbral de advertencia para el SLO.
Las alarmas de CloudWatch pueden utilizar Amazon SNS para notificarle de forma proactiva si una aplicación no funciona de forma correcta en función del rendimiento del SLI.
Para crear una alarma, seleccione una de las casillas de verificación de la alarma e introduzca o cree el tema de Amazon SNS para usarlo en las notificaciones cuando la alarma entre en estado
ALARM
. Para obtener más información acerca de las alarmas de CloudWatch, consulte Uso de las alarmas de Amazon CloudWatch. La creación de alarmas genera cargos. Para obtener más información sobre los precios de CloudWatch, consulte Precios de Amazon CloudWatch. Si establece un umbral de advertencia, este aparecerá en las pantallas de Application Signals para ayudarlo a identificar los SLO que corren el riesgo de no cumplirse, incluso si actualmente son correctos.
Para establecer un umbral de advertencia, introduzca el valor del umbral en Umbral de advertencia. Cuando el presupuesto de error del SLO es inferior al umbral de advertencia, el SLO se marca con una Advertencia en varias pantallas de Application Signals. Los umbrales de advertencia también aparecen en los gráficos del presupuesto de errores. También puede crear una alarma de advertencia de SLO que se base en el umbral de advertencia.
Para añadir etiquetas a este SLO, seleccione la pestaña Etiquetas y, a continuación, seleccione Añadir nueva etiqueta. Las etiquetas pueden ayudarle a administrar, identificar, organizar, buscar y filtrar recursos. Para obtener más información sobre el etiquetado, consulte Etiquetado de los recursos de AWS.
nota
Si la aplicación con la que se relaciona este SLO está registrada en AWS Service Catalog AppRegistry, puede usar la etiqueta
awsApplication
para asociar este SLO a esa aplicación en AppRegistry. Para más información, consulte ¿Qué es AppRegistry?Seleccione Crear SLO. Si también opta por crear una o más alarmas, el nombre del botón cambiará para reflejarlo.
Creación de un SLO basado en solicitudes
Utilice el siguiente procedimiento para crear un SLO basado en solicitudes.
Para crear un SLO basado en solicitudes:
Abra la consola de CloudWatch en https://console.aws.amazon.com/cloudwatch/
. En el panel de navegación, elija Objetivos de nivel de servicio (SLO).
Seleccione Crear SLO.
Escriba un nombre para el SLO. Incluir el nombre de un servicio u operación, junto con las palabras clave adecuadas, como latencia o disponibilidad, lo ayudará a identificar rápidamente lo que indica el estado del SLO durante la clasificación.
En Establecer el indicador de nivel de servicio (SLI), realice una de las siguientes operaciones:
Para establecer el SLO en cualquiera de las métricas de la aplicación estándar
Latency
oAvailability
:Seleccione Operación de servicio.
Seleccione el servicio que supervisará este SLO.
Seleccione la operación que supervisará este SLO.
En Seleccionar un método de cálculo, elija Solicitudes.
-
Los menús desplegables Seleccionar servicio y Seleccionar operación se rellenan con los servicios y operaciones que han estado activos en las últimas 24 horas.
Elija Disponibilidad o Latencia. Si elige Latencia, establezca el umbral.
Para establecer el SLO en cualquier métrica de CloudWatch o en una expresión matemática métrica de CloudWatch:
Seleccione Métrica de CloudWatch.
-
En Definir solicitudes de destino, haga lo siguiente:
Elija si quiere medir las solicitudes válidas o las solicitudes incorrectas.
-
Haga clic en Seleccionar métrica de CloudWatch. Esta métrica será el numerador de la relación entre las solicitudes objetivo y el total de solicitudes. Si utiliza una métrica de latencia, utilice las estadísticas de recuento recortado (TC). Si el umbral es de 9 ms y usa el operador de comparación inferior a (<), use el umbral de TC (:threshold - 1). Para obtener más información sobre TC, consulte Sintaxis.
Aparece la pantalla Seleccionar métrica. Utilice las pestañas Examinar o Consulta para buscar la métrica que desee o cree una expresión matemática métrica.
-
En Definir el total de solicitudes, elija la métrica de CloudWatch que desee usar para el origen. Esta métrica será el denominador de la relación entre las solicitudes objetivo y el total de solicitudes.
Aparece la pantalla Seleccionar métrica. Utilice las pestañas Examinar o Consulta para buscar la métrica que desee o cree una expresión matemática métrica.
Después de seleccionar la métrica que desee, seleccione la pestaña Métricas diagramadas y seleccione la Estadística y el Período que desee usar para el SLO. A continuación, elija Select metric (Seleccionar métrica).
Si utiliza una métrica de latencia que emite un punto de datos por solicitud, utilice las estadísticas del recuento de muestras para contar el número total de solicitudes.
Para obtener más información sobre estas pantallas, consulte Representar gráficamente una métrica y Añadir una expresión matemática a un gráfico de CloudWatch.
Establezca el intervalo y el objetivo de rendimiento del SLO. Para obtener más información sobre los intervalos y los objetivos de rendimiento y cómo funcionan de forma conjunta, consulte Conceptos del SLO.
(Opcional) Para establecer tasas de consumo de SLO siga estos pasos:
Defina la duración (en minutos) del intervalo de revisión para la tasa de consumo. Para obtener información sobre cómo cambiar la duración, consulte Tutoriales para establecer alarmas de tasa de consumo.
Para crear más tasas de consumo para este SLO, seleccione Agregar más tasas de consumo y establezca el intervalo de revisión para ver las tasas de consumo adicionales.
(Opcional) Cree alarmas de tasa de consumo mediante el siguiente método:
En Configurar alarmas de tasa de consumo active la casilla de verificación de cada tasa de consumo para la que desee crear una alarma. Para cada una de esas alarmas haga lo siguiente:
Especifique el tema de Amazon SNS para usarlo en las notificaciones cuando la alarma entre en estado de ALARMA.
Establezca un límite de tasa de consumo o especifique el porcentaje del presupuesto total estimado utilizado en el último intervalo de revisión por debajo del cual desea permanecer. Si establece el porcentaje del presupuesto total estimado consumido, el límite de la tasa de consumo se calcula automáticamente y se utiliza en la alarma. Para decidir qué límite establecer o para entender cómo se utiliza esta opción para calcular el límite de la tasa de consumo, consulte Determinar el límite adecuado para una alarma de tasa de consumo.
(Opcional) Establezca una o más alarmas de CloudWatch o un umbral de advertencia para el SLO.
Las alarmas de CloudWatch pueden utilizar Amazon SNS para notificarle de forma proactiva si una aplicación no funciona de forma correcta en función del rendimiento del SLI.
Para crear una alarma, seleccione una de las casillas de verificación de la alarma e introduzca o cree el tema de Amazon SNS para usarlo en las notificaciones cuando la alarma entre en estado
ALARM
. Para obtener más información acerca de las alarmas de CloudWatch, consulte Uso de las alarmas de Amazon CloudWatch. La creación de alarmas genera cargos. Para obtener más información sobre los precios de CloudWatch, consulte Precios de Amazon CloudWatch. Si establece un umbral de advertencia, este aparecerá en las pantallas de Application Signals para ayudarlo a identificar los SLO que corren el riesgo de no cumplirse, incluso si actualmente son correctos.
Para establecer un umbral de advertencia, introduzca el valor del umbral en Umbral de advertencia. Cuando el presupuesto de error del SLO es inferior al umbral de advertencia, el SLO se marca con una Advertencia en varias pantallas de Application Signals. Los umbrales de advertencia también aparecen en los gráficos del presupuesto de errores. También puede crear una alarma de advertencia de SLO que se base en el umbral de advertencia.
Para añadir etiquetas a este SLO, seleccione la pestaña Etiquetas y, a continuación, seleccione Añadir nueva etiqueta. Las etiquetas pueden ayudarle a administrar, identificar, organizar, buscar y filtrar recursos. Para obtener más información sobre el etiquetado, consulte Etiquetado de los recursos de AWS.
nota
Si la aplicación con la que se relaciona este SLO está registrada en AWS Service Catalog AppRegistry, puede usar la etiqueta
awsApplication
para asociar este SLO a esa aplicación en AppRegistry. Para más información, consulte ¿Qué es AppRegistry?Seleccione Crear SLO. Si también opta por crear una o más alarmas, el nombre del botón cambiará para reflejarlo.
Visualización y clasificación del estado del SLO
Puede ver rápidamente el estado de sus SLO mediante los Objetivos de nivel de servicio o las opciones de Servicios en la consola de CloudWatch. La vista de Servicios ofrece una vista rápida de la proporción de servicios que no funcionan de forma correcta, calculada en función de los SLO que haya establecido. Para obtener más información acerca del uso de la opción Servicios, consulte Monitoreo del estado operativo de sus aplicaciones con Application Signals.
La vista de los Objetivos de nivel de servicio proporciona una vista global de su organización. Puede ver los SLO cumplidos y no cumplidos en su conjunto. Esto permite ver cuántos servicios y operaciones están cumpliendo sus expectativas durante los periodos de tiempo más largos, en función de los SLI que haya elegido.
Cómo ver todos los SLO mediante la vista Objetivos de nivel de servicio
-
Abra la consola de CloudWatch en https://console.aws.amazon.com/cloudwatch/
. En el panel de navegación, elija Objetivos de nivel de servicio (SLO).
Aparece la lista de Objetivos de nivel de servicio (SLO).
Puede ver rápidamente el estado actual de sus SLO en la columna Estado del SLI. Para ordenar los SLO de manera que todos los SLO que no funcionen de forma correcta estén al principio de la lista, seleccione la columna Estado del SLI hasta que todos los SLO que no funcionen de forma correcta estén en la parte superior.
La tabla de SLO tiene las siguientes columnas predeterminadas. Puede ajustar las columnas que se muestran al elegir el icono de engranaje que aparece en la parte superior de la lista. Para obtener más información sobre los objetivos, los SLI, el rendimiento y los intervalos, consulte Conceptos del SLO.
El nombre del SLO.
La columna Objetivo muestra el porcentaje de periodos durante cada intervalo que deben alcanzar de forma satisfactoria el umbral del SLI para cumplir el objetivo del SLO. También muestra la duración del intervalo del SLO.
El estado del SLI muestra si el estado operativo actual de la aplicación es correcto o no. Si algún periodo del intervalo de tiempo seleccionado actualmente no era correcto para el SLO, el estado del SLI mostrará Incorrecto.
El rendimiento final es el nivel de rendimiento alcanzado al final del intervalo de tiempo seleccionado. Ordene según esta columna para ver los SLO que corren mayor riesgo de no cumplirse.
El Delta de rendimiento es la diferencia en el nivel de rendimiento entre el inicio y el final del intervalo de tiempo seleccionado. Un delta negativo significa que la métrica tiene una tendencia descendente. Ordene según esta columna para ver las últimas tendencias de los SLO.
El Presupuesto de errores finales (%) es el porcentaje del tiempo total del periodo que puede tener periodos incorrectos y, aun así, lograr los SLO con éxito. Si lo establece en un 5 % y el SLI es incorrecto en un 5 % o por debajo de los periodos restantes del intervalo, los SLO todavía se cumplen de forma correcta.
El Delta del presupuesto de errores es la diferencia en el presupuesto de errores entre el inicio y el final del intervalo de tiempo seleccionado. Un delta negativo significa que la métrica tiende a fallar.
El Presupuesto de errores finales (tiempo) es la cantidad de tiempo real del intervalo que puede resultar incorrecto y, aun así, permitir que el SLO se cumpla de forma correcta. Por ejemplo, si es de 14 minutos, y el SLI es incorrecto durante menos de 14 minutos en el intervalo restante, el SLO se seguirá cumpliendo de forma correcta.
-
El Presupuesto de errores finales (solicitudes) es la cantidad de solicitudes del intervalo que puede resultar incorrecto y, aun así, permitir que el SLO se cumpla de forma correcta. En el caso de los SLO basados en solicitudes, este valor es dinámico y puede fluctuar a medida que el número total acumulado de solicitudes cambia con el tiempo.
Las columnas Servicio, Operación y Tipo muestran información sobre el servicio y la operación para los que se ha establecido este SLO.
Para ver los gráficos del rendimiento y el presupuesto de errores de un SLO, seleccione el botón de opción situado junto al nombre del SLO.
Los gráficos en la parte superior de la página muestran el estado del rendimiento y el presupuesto de errores del SLO. También se muestra un gráfico sobre la métrica del SLI asociada a este SLO.
Para seguir clasificando un SLO que no cumple su objetivo, elija el nombre del servicio o el nombre de la operación correspondiente a ese SLO. Se lo redirigirá a la página de detalles, donde podrá seguir clasificando. Para obtener más información, consulte Visualización de la actividad detallada del servicio y el estado operativo en la página de detalles del servicio.
Para cambiar el intervalo de tiempo de los gráficos y las tablas de la página, seleccione un nuevo intervalo de tiempo cerca de la parte superior de la pantalla.
Edición de un SLO existente
Siga los siguientes pasos para editar un SLO existente. Al editar un SLO, solo puede cambiar el umbral, el intervalo, el objetivo de rendimiento y las etiquetas. Para cambiar otros aspectos, como el servicio, la operación o la métrica, cree un SLO nuevo en lugar de editar uno existente.
Al cambiar parte de la configuración básica de un SLO, como el periodo o el umbral, se invalidan todos los puntos de datos y las evaluaciones anteriores sobre el rendimiento y el estado. Elimina y vuelve a crear de forma efectiva el SLO.
nota
Si edita un SLO, las alarmas asociadas a ese SLO no se actualizan de forma automática. Es posible que tenga que actualizar las alarmas para mantenerlas sincronizadas con el SLO.
Cómo editar un SLO existente
-
Abra la consola de CloudWatch en https://console.aws.amazon.com/cloudwatch/
. En el panel de navegación, elija Objetivos de nivel de servicio (SLO).
Seleccione el botón de opción situado junto al SLO que desea editar y haga clic en Acciones, Editar SLO.
Realice los cambios y, a continuación, elija Guardar cambios.
Eliminación de un SLO
Siga los siguientes pasos para eliminar un SLO existente.
nota
Al eliminar un SLO, las alarmas asociadas a ese SLO no se eliminan de forma automática. Tendrá que eliminarlas usted. Para obtener más información, consulte Administración de alarmas.
Cómo eliminar un SLO
-
Abra la consola de CloudWatch en https://console.aws.amazon.com/cloudwatch/
. En el panel de navegación, elija Objetivos de nivel de servicio (SLO).
Elija el botón de opción situado junto al SLO que desea editar y elija Acciones, Eliminar SLO.
Elija Confirmar.