Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
CloudWatch Alarmas recomendadas para Amazon OpenSearch Service
CloudWatch las alarmas realizan una acción cuando una CloudWatch métrica supera un valor especificado durante un período de tiempo determinado. Por ejemplo, es posible que AWS desee enviarle un correo electrónico si el estado del clúster es red
superior a un minuto. En esta sección se incluyen algunas alarmas recomendadas para Amazon OpenSearch Service y cómo responder a ellas.
Puede implementar estas alarmas automáticamente mediante AWS CloudFormation. Para ver una pila de muestras, consulta el GitHubrepositorio
nota
Si despliegas la CloudFormation pila, las KMSKeyInaccessible
alarmas KMSKeyError
y permanecerán en un Insufficient
Data
estado dado que estas métricas solo aparecen si un dominio encuentra un problema con su clave de cifrado.
Para obtener más información sobre la configuración de alarmas, consulte Creación de CloudWatch alarmas de Amazon en la Guía del CloudWatch usuario de Amazon.
Alarma | Problema |
---|---|
El valor máximo de ClusterStatus.red es >= 1 durante 1 minuto, 1 periodo consecutivo |
Al menos una partición principal y sus réplicas no están asignados a un nodo. Consulte Estado rojo del clúster. |
El valor máximo de ClusterStatus.yellow es >= 1 durante 1 minuto, 5 periodos consecutivos |
Al menos una partición de réplica no está asignada a un nodo. Consulte Estado amarillo del clúster. |
El valor mínimo de FreeStorageSpace es <= 20 480 durante 1 minuto, 1 periodo consecutivo |
El espacio de almacenamiento disponible de un nodo en su clúster se redujo hasta los 20 GiB. Consulte Falta de espacio de almacenamiento disponible. Este valor está en MiB, por lo que, en lugar de 20 480, recomendamos que lo configure en un 25 % del espacio de almacenamiento de cada nodo. |
El valor de ClusterIndexWritesBlocked es >= 1 durante 5 minutos, 1 periodo consecutivo |
El clúster bloquea las solicitudes de escritura. Consulte ClusterBlockException. |
El valor mínimo de Nodes es < x 1 día, 1 periodo consecutivo |
x es el número de nodos del clúster. Esta alarma indica que al menos un nodo del clúster se mantuvo inaccesible durante un día. Consulte Nodos de clúster defectuosos. |
El valor máximo de AutomatedSnapshotFailure es >= 1 durante 1 minuto, 1 periodo consecutivo |
Se produjo un error en una instantánea automatizada. Este error suele ser el resultado de un estado rojo del clúster. Consulte Estado rojo del clúster. Para ver un resumen de todas las instantáneas automatizadas e información sobre los errores, también puede probar las siguientes solicitudes:
|
El valor máximo de CPUUtilization o WarmCPUUtilization es >= 80 % durante 15 minutos, 3 periodos consecutivos |
A veces puede producirse un uso de CPU del 100 %, pero el uso sostenido elevado es problemático. Considere la posibilidad de utilizar tipos de instancias más grandes o de agregar instancias. |
El valor máximo de JVMMemoryPressure es >= 95 % durante 1 minuto, 3 periodos consecutivos |
El clúster podría encontrar errores de memoria insuficiente si aumenta el uso. Considere la posibilidad de escalar verticalmente. OpenSearch El servicio utiliza la mitad de la RAM de una instancia para el montón de Java, hasta un tamaño de pila de 32 GiB. Puede escalar las instancias verticalmente hasta 64 GiB de RAM y después escalarlas horizontalmente mediante el agregado de instancias. |
El valor máximo de OldGenJVMMemoryPressure es >= 80 % durante 1 minuto, 3 periodos consecutivos |
|
El valor máximo de ManagerCPUUtilization es >= 50 % durante 15 minutos, 3 periodos consecutivos |
Considere la posibilidad de utilizar tipos de instancias más grandes para los nodos de administrador dedicados. Debido a su función en la estabilidad del clúster y en las implementaciones azules o verdes, los nodos de administración dedicados deberían utilizar menos CPU que los nodos de datos. |
El valor máximo de ManagerJVMMemoryPressure es >= 95 % durante 1 minuto, 3 periodos consecutivos |
|
El valor máximo de ManagerOldGenJVMMemoryPressure es >= 80 % durante 1 minuto, 3 periodos consecutivos |
|
El valor de KMSKeyError es >= 1 durante 1 minuto, 1 periodo consecutivo |
La clave de AWS KMS cifrado que se utiliza para cifrar los datos en reposo de su dominio está deshabilitada. Vuelva a habilitarla para restablecer las operaciones normales. Para más información, consulte Cifrado de datos en reposo para Amazon OpenSearch Service. |
El valor de KMSKeyInaccessible es >= 1 durante 1 minuto, 1 periodo consecutivo |
La clave de AWS KMS cifrado que se utiliza para cifrar los datos inactivos de tu dominio se ha eliminado o ha revocado su concesión al Servicio. OpenSearch No puede recuperar los dominios que están en este estado. Sin embargo, si tiene una instantánea manual, puede utilizarla para migrar a un nuevo dominio. Para más información, consulte Cifrado de datos en reposo para Amazon OpenSearch Service. |
El valor de shards.active es >= 30 000 durante 1 minuto, 1 periodo consecutivo |
El número total de particiones primarias y de réplicas activas es superior a 30 000. Es posible que esté rotando los índices con demasiada frecuencia. Considere la posibilidad de utilizar ISM para eliminar los índices una vez que alcancen una antigüedad determinada. |
Alarmas 5xx >= 10 % de OpenSearchRequests |
Es posible que uno o varios nodos de datos estén sobrecargados, o que las solicitudes no se completen dentro del periodo de tiempo de espera. Considere la posibilidad de cambiar a tipos de instancia más grandes o de agregar más nodos al clúster. Compruebe que está siguiendo las prácticas recomendadas para la arquitectura de particiones y clústeres. |
El valor máximo de ManagerReachableFromNode es < 1 durante 5 minutos, 1 periodo consecutivo |
Esta alarma indica que el nodo administrador se ha detenido o no se puede acceder a él. Estas fallas suelen ser el resultado de un problema de conectividad de red o un problema de AWS dependencia. |
El valor medio de ThreadpoolWriteQueue es >= 100 durante 1 minuto, 1 periodo consecutivo |
El clúster está experimentando una alta simultaneidad de indexación. Revise y controle las solicitudes de indexación, o aumente los recursos del clúster. |
El valor medio de ThreadpoolSearchQueue es >= 500 durante 1 minuto, 1 periodo consecutivo |
El clúster está experimentando una alta simultaneidad de búsqueda. Considere la posibilidad de escalar el clúster. También se puede aumentar el tamaño de la cola de búsqueda, pero si se incrementa excesivamente puede provocar errores de memoria. |
El valor máximo de ThreadpoolSearchQueue es >= 5000 durante 1 minuto, 1 periodo consecutivo |
|
El aumento de ThreadpoolSearchRejected SUM es >=1{expresión matemática DIFF ( )} durante 1 minuto, 1 periodo consecutivo |
Estas alarmas le notifican los problemas del dominio que podrían afectar el rendimiento y la estabilidad. |
El aumento de ThreadpoolWriteRejected SUM es >=1{expresión matemática DIFF ( )} durante 1 minuto, 1 periodo consecutivo |
nota
Si solo desea visualizar métricas, consulte Supervisión de las métricas de los OpenSearch clústeres con Amazon CloudWatch.
Otras alarmas para tener en cuenta
Considere la posibilidad de configurar las siguientes alarmas en función de las funciones del OpenSearch servicio que utilice habitualmente.
Alarma | Problema |
---|---|
WarmFreeStorageSpace es >=10 % |
Has alcanzado el 10% del total de tu almacenamiento caliente gratuito. WarmFreeStorageSpace mide la suma del espacio de almacenamiento caliente libre en MiB. UltraWarm utiliza Amazon S3 en lugar de discos adjuntos. |
El valor de HotToWarmMigrationQueueSize es >= 20 durante 1 minuto, 3 periodos consecutivos |
Al mismo tiempo, un gran número de índices pasan del modo activo al UltraWarm almacenamiento. Considere la posibilidad de escalar el clúster. |
El valor de HotToWarmMigrationSuccessLatency es >= 1 día, 1 periodo consecutivo |
Si está intentando revertir los índices diarios, configure esta alarma para que se le notifique si el |
El valor máximo de WarmJVMMemoryPressure es >= 95 % durante 1 minuto, 3 periodos consecutivos |
El clúster podría encontrar errores de memoria insuficiente si aumenta el uso. Considere la posibilidad de escalar verticalmente. OpenSearch El servicio utiliza la mitad de la RAM de una instancia para el montón de Java, hasta un tamaño de pila de 32 GiB. Puede escalar las instancias verticalmente hasta 64 GiB de RAM y después escalarlas horizontalmente mediante el agregado de instancias. |
El valor máximo de WarmOldGenJVMMemoryPressure es >= 80 % durante 1 minuto, 3 periodos consecutivos |
|
El valor de WarmToColdMigrationQueueSize es >= 20 durante 1 minuto, 3 periodos consecutivos |
Un gran número de índices se están trasladando simultáneamente al almacenamiento en frío. UltraWarm Considere la posibilidad de escalar el clúster. |
El valor de HotToWarmMigrationFailureCount es >= 1 durante 1 minuto, 1 periodo consecutivo |
Se pueden producir errores en las migraciones si se realizan durante instantáneas, reubicaciones de particiones o fusiones forzadas. Los errores durante las instantáneas o las reubicaciones de particiones suelen deberse a errores de nodo o problemas de conectividad de S3. La falta de espacio en el disco suele ser la causa subyacente de los errores en las fusiones forzosas. |
El valor de WarmToColdMigrationFailureCount es >= 1 durante 1 minuto, 1 periodo consecutivo |
Las migraciones suelen fallar cuando se produce un error en los intentos de migrar metadatos de índice al almacenamiento en frío. También pueden producirse errores al eliminar el estado de clúster de índice en caliente. |
El valor de WarmToColdMigrationLatency es >= 1 día, 1 periodo consecutivo |
Si está intentando revertir los índices diarios, configure esta alarma para que se le notifique si el |
El valor de AlertingDegraded es >= 1 durante 1 minuto, 1 periodo consecutivo |
El índice de alerta está en rojo, o uno o más nodos no ajustan a la programación. |
El valor de ADPluginUnhealthy es >= 1 durante 1 minuto, 1 periodo consecutivo |
El complemento de detección de anomalías no funciona correctamente, ya sea debido a altas tasas de error o porque uno de los índices utilizados está en rojo. |
El valor de AsynchronousSearchFailureRate es >= 1 durante 1 minuto, 1 periodo consecutivo |
Al menos una búsqueda asíncrona ha fallado en el último minuto, lo que probablemente significa que el nodo coordinador ha fallado. El ciclo de vida de una solicitud de búsqueda asíncrona se administra únicamente en el nodo coordinador, por lo que si el coordinador cae, la solicitud falla. |
El valor de AsynchronousSearchStoreHealth es >= 1 durante 1 minuto, 1 periodo consecutivo |
El estado del almacén de respuestas de búsqueda asíncrona en el índice persistente está en rojo. Es posible que esté almacenando respuestas asíncronas de gran tamaño, lo que puede desestabilizar un clúster. Intente limitar las respuestas de búsqueda asíncronas a 10 MB o menos. |
El valor de SQLUnhealthy es >= 1 durante 1 minuto, 3 periodos consecutivos |
El complemento SQL devuelve 5 xx códigos de respuesta o pasa una consulta de DSL no válida a ella. OpenSearch Solucione los problemas de las solicitudes que sus clientes hacen al complemento. |
El valor de LTRStatus.red es >= 1 durante 1 minuto, 1 periodo consecutivo |
Al menos uno de los índices necesarios para ejecutar el complemento Learning to Rank carece de particiones principales y no es funcional. |