CloudWatch Alarmas recomendadas para Amazon OpenSearch Service - OpenSearch Servicio Amazon

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

CloudWatch Alarmas recomendadas para Amazon OpenSearch Service

CloudWatch las alarmas realizan una acción cuando una CloudWatch métrica supera un valor especificado durante un período de tiempo determinado. Por ejemplo, es posible que AWS desee enviarle un correo electrónico si el estado del clúster es red superior a un minuto. En esta sección se incluyen algunas alarmas recomendadas para Amazon OpenSearch Service y cómo responder a ellas.

Puede implementar estas alarmas automáticamente mediante AWS CloudFormation. Para ver una pila de muestras, consulta el GitHubrepositorio relacionado.

nota

Si despliegas la CloudFormation pila, las KMSKeyInaccessible alarmas KMSKeyError y permanecerán en un Insufficient Data estado dado que estas métricas solo aparecen si un dominio encuentra un problema con su clave de cifrado.

Para obtener más información sobre la configuración de alarmas, consulte Creación de CloudWatch alarmas de Amazon en la Guía del CloudWatch usuario de Amazon.

Alarma Problema
El valor máximo de ClusterStatus.red es >= 1 durante 1 minuto, 1 periodo consecutivo Al menos una partición principal y sus réplicas no están asignados a un nodo. Consulte Estado rojo del clúster.
El valor máximo de ClusterStatus.yellow es >= 1 durante 1 minuto, 5 periodos consecutivos Al menos una partición de réplica no está asignada a un nodo. Consulte Estado amarillo del clúster.
El valor mínimo de FreeStorageSpace es <= 20 480 durante 1 minuto, 1 periodo consecutivo El espacio de almacenamiento disponible de un nodo en su clúster se redujo hasta los 20 GiB. Consulte Falta de espacio de almacenamiento disponible. Este valor está en MiB, por lo que, en lugar de 20 480, recomendamos que lo configure en un 25 % del espacio de almacenamiento de cada nodo.
El valor de ClusterIndexWritesBlocked es >= 1 durante 5 minutos, 1 periodo consecutivo El clúster bloquea las solicitudes de escritura. Consulte ClusterBlockException.
El valor mínimo de Nodes es < x 1 día, 1 periodo consecutivo x es el número de nodos del clúster. Esta alarma indica que al menos un nodo del clúster se mantuvo inaccesible durante un día. Consulte Nodos de clúster defectuosos.
El valor máximo de AutomatedSnapshotFailure es >= 1 durante 1 minuto, 1 periodo consecutivo Se produjo un error en una instantánea automatizada. Este error suele ser el resultado de un estado rojo del clúster. Consulte Estado rojo del clúster.

Para ver un resumen de todas las instantáneas automatizadas e información sobre los errores, también puede probar las siguientes solicitudes:

GET domain_endpoint/_snapshot/cs-automated/_all GET domain_endpoint/_snapshot/cs-automated-enc/_all
El valor máximo de CPUUtilization o WarmCPUUtilization es >= 80 % durante 15 minutos, 3 periodos consecutivos A veces puede producirse un uso de CPU del 100 %, pero el uso sostenido elevado es problemático. Considere la posibilidad de utilizar tipos de instancias más grandes o de agregar instancias.
El valor máximo de JVMMemoryPressure es >= 95 % durante 1 minuto, 3 periodos consecutivos El clúster podría encontrar errores de memoria insuficiente si aumenta el uso. Considere la posibilidad de escalar verticalmente. OpenSearch El servicio utiliza la mitad de la RAM de una instancia para el montón de Java, hasta un tamaño de pila de 32 GiB. Puede escalar las instancias verticalmente hasta 64 GiB de RAM y después escalarlas horizontalmente mediante el agregado de instancias.
El valor máximo de OldGenJVMMemoryPressure es >= 80 % durante 1 minuto, 3 periodos consecutivos
El valor máximo de MasterCPUUtilization es >= 50 % durante 15 minutos, 3 periodos consecutivos Considere la posibilidad de utilizar tipos de instancias más grandes para los nodos maestros dedicados. Debido al rol que desempeñan en la estabilidad del clúster y las implementaciones azul/verde, los nodos maestros dedicados deberían tener un uso de CPU medio menor que los nodos de datos.
El valor máximo de MasterJVMMemoryPressure es >= 95 % durante 1 minuto, 3 periodos consecutivos
El valor máximo de MasterOldGenJVMMemoryPressure es >= 80 % durante 1 minuto, 3 periodos consecutivos
El valor de KMSKeyError es >= 1 durante 1 minuto, 1 periodo consecutivo La clave de AWS KMS cifrado que se usa para cifrar los datos en reposo de tu dominio está deshabilitada. Vuelva a habilitarla para restablecer las operaciones normales. Para más información, consulte Cifrado de datos en reposo para Amazon OpenSearch Service.
El valor de KMSKeyInaccessible es >= 1 durante 1 minuto, 1 periodo consecutivo La clave de AWS KMS cifrado que se utiliza para cifrar los datos inactivos de tu dominio se ha eliminado o ha revocado su concesión al Servicio. OpenSearch No puede recuperar los dominios que están en este estado. Sin embargo, si tiene una instantánea manual, puede utilizarla para migrar a un nuevo dominio. Para más información, consulte Cifrado de datos en reposo para Amazon OpenSearch Service.
El valor de shards.active es >= 30 000 durante 1 minuto, 1 periodo consecutivo

El número total de particiones primarias y de réplicas activas es superior a 30 000. Es posible que esté rotando los índices con demasiada frecuencia. Considere la posibilidad de utilizar ISM para eliminar los índices una vez que alcancen una antigüedad determinada.

Alarmas 5xx >= 10 % de OpenSearchRequests Es posible que uno o varios nodos de datos estén sobrecargados, o que las solicitudes no se completen dentro del periodo de tiempo de espera. Considere la posibilidad de cambiar a tipos de instancia más grandes o de agregar más nodos al clúster. Compruebe que está siguiendo las prácticas recomendadas para la arquitectura de particiones y clústeres.
MasterReachableFromNodeel máximo es < 1 durante 5 minutos, 1 vez consecutiva

Esta alarma indica que el nodo maestro se ha detenido o es inaccesible. Estos errores suelen ser el resultado de un problema de conectividad de red o de AWS dependencia.

El valor medio de ThreadpoolWriteQueue es >= 100 durante 1 minuto, 1 periodo consecutivo El clúster está experimentando una alta simultaneidad de indexación. Revise y controle las solicitudes de indexación, o aumente los recursos del clúster.
El valor medio de ThreadpoolSearchQueue es >= 500 durante 1 minuto, 1 periodo consecutivo El clúster está experimentando una alta simultaneidad de búsqueda. Considere la posibilidad de escalar el clúster. También se puede aumentar el tamaño de la cola de búsqueda, pero si se incrementa excesivamente puede provocar errores de memoria.
El valor máximo de ThreadpoolSearchQueue es >= 5000 durante 1 minuto, 1 periodo consecutivo
El aumento de ThreadpoolSearchRejected SUM es >=1{expresión matemática DIFF ( )} durante 1 minuto, 1 periodo consecutivo Estas alarmas le notifican los problemas del dominio que podrían afectar el rendimiento y la estabilidad.
El aumento de ThreadpoolWriteRejected SUM es >=1{expresión matemática DIFF ( )} durante 1 minuto, 1 periodo consecutivo
nota

Otras alarmas para tener en cuenta

Considere la posibilidad de configurar las siguientes alarmas en función de las funciones del OpenSearch servicio que utilice habitualmente.

Alarma Problema
WarmFreeStorageSpacees >= 10% Has alcanzado el 10% del total de tu almacenamiento caliente gratuito. WarmFreeStorageSpacemide la suma del espacio de almacenamiento caliente libre en MiB. UltraWarm utiliza Amazon S3 en lugar de discos adjuntos.
El valor de HotToWarmMigrationQueueSize es >= 20 durante 1 minuto, 3 periodos consecutivos

Al mismo tiempo, un gran número de índices pasan del modo activo al UltraWarm almacenamiento. Considere la posibilidad de escalar el clúster.

El valor de HotToWarmMigrationSuccessLatency es >= 1 día, 1 periodo consecutivo

Si está intentando revertir los índices diarios, configure esta alarma para que se le notifique si el HotToWarmMigrationSuccessCount x latencia es superior a 24 horas.

El valor máximo de WarmJVMMemoryPressure es >= 95 % durante 1 minuto, 3 periodos consecutivos El clúster podría encontrar errores de memoria insuficiente si aumenta el uso. Considere la posibilidad de escalar verticalmente. OpenSearch El servicio utiliza la mitad de la RAM de una instancia para el montón de Java, hasta un tamaño de pila de 32 GiB. Puede escalar las instancias verticalmente hasta 64 GiB de RAM y después escalarlas horizontalmente mediante el agregado de instancias.
El valor máximo de WarmOldGenJVMMemoryPressure es >= 80 % durante 1 minuto, 3 periodos consecutivos
El valor de WarmToColdMigrationQueueSize es >= 20 durante 1 minuto, 3 periodos consecutivos

Un gran número de índices se están trasladando simultáneamente al almacenamiento en frío. UltraWarm Considere la posibilidad de escalar el clúster.

El valor de HotToWarmMigrationFailureCount es >= 1 durante 1 minuto, 1 periodo consecutivo

Se pueden producir errores en las migraciones si se realizan durante instantáneas, reubicaciones de particiones o fusiones forzadas. Los errores durante las instantáneas o las reubicaciones de particiones suelen deberse a errores de nodo o problemas de conectividad de S3. La falta de espacio en el disco suele ser la causa subyacente de los errores en las fusiones forzosas.

El valor de WarmToColdMigrationFailureCount es >= 1 durante 1 minuto, 1 periodo consecutivo Las migraciones suelen fallar cuando se produce un error en los intentos de migrar metadatos de índice al almacenamiento en frío. También pueden producirse errores al eliminar el estado de clúster de índice en caliente.
El valor de WarmToColdMigrationLatency es >= 1 día, 1 periodo consecutivo

Si está intentando revertir los índices diarios, configure esta alarma para que se le notifique si el WarmToColdMigrationSuccessCount x latencia es superior a 24 horas.

El valor de AlertingDegraded es >= 1 durante 1 minuto, 1 periodo consecutivo

El índice de alerta está en rojo, o uno o más nodos no ajustan a la programación.

El valor de ADPluginUnhealthy es >= 1 durante 1 minuto, 1 periodo consecutivo

El complemento de detección de anomalías no funciona correctamente, ya sea debido a altas tasas de error o porque uno de los índices utilizados está en rojo.

El valor de AsynchronousSearchFailureRate es >= 1 durante 1 minuto, 1 periodo consecutivo

Al menos una búsqueda asíncrona ha fallado en el último minuto, lo que probablemente significa que el nodo coordinador ha fallado. El ciclo de vida de una solicitud de búsqueda asíncrona se administra únicamente en el nodo coordinador, por lo que si el coordinador cae, la solicitud falla.

El valor de AsynchronousSearchStoreHealth es >= 1 durante 1 minuto, 1 periodo consecutivo

El estado del almacén de respuestas de búsqueda asíncrona en el índice persistente está en rojo. Es posible que esté almacenando respuestas asíncronas de gran tamaño, lo que puede desestabilizar un clúster. Intente limitar las respuestas de búsqueda asíncronas a 10 MB o menos.

El valor de SQLUnhealthy es >= 1 durante 1 minuto, 3 periodos consecutivos

El complemento SQL devuelve 5 xx códigos de respuesta o pasa una consulta de DSL no válida a ella. OpenSearch Solucione los problemas de las solicitudes que sus clientes hacen al complemento.

El valor de LTRStatus.red es >= 1 durante 1 minuto, 1 periodo consecutivo

Al menos uno de los índices necesarios para ejecutar el complemento Learning to Rank carece de particiones principales y no es funcional.