CloudWatch Alarmes recommandées pour Amazon OpenSearch Service

CloudWatch les alarmes exécutent une action lorsqu'une CloudWatch métrique dépasse une valeur spécifiée pendant un certain temps. Par exemple, vous souhaiterez peut-être vous AWS envoyer un e-mail si l'état de santé de votre cluster red dure plus d'une minute. Cette section inclut certaines alarmes recommandées pour Amazon OpenSearch Service et explique comment y répondre.

Vous pouvez déployer automatiquement ces alarmes à l'aide de AWS CloudFormation. Pour un exemple de pile, consultez le GitHubréférentiel correspondant.

Note

Si vous déployez la CloudFormation pile, les KMSKeyInaccessible alarmes KMSKeyError et existeront dans un Insufficient Data état défini, car ces métriques n'apparaîtront que si un domaine rencontre un problème avec sa clé de chiffrement.

Pour plus d'informations sur la configuration des alarmes, consultez la section Création d' CloudWatchalarmes Amazon dans le guide de CloudWatch l'utilisateur Amazon.

alerte	Problème
La valeur maximale de `ClusterStatus.red` est >= 1 pendant 1 minute, 1 fois consécutive	Au moins une partition principale et ses réplicas ne sont pas alloués à un nœud. Consultez Statut de cluster rouge.
La valeur maximale de `ClusterStatus.yellow` est >= 1 pendant 1 minute, 5 fois consécutives	Au moins une partition de réplica n'est pas allouée à un nœud. Consultez Statut de cluster jaune.
La valeur minimale de `FreeStorageSpace` est <= 20480 pendant 1 minute, 1 fois consécutive	Un nœud de votre cluster est descendu à 20 Gio d'espace de stockage disponible. Consultez Manque d'espace de stockage disponible. Cette valeur est en Mio. Par conséquent, au lieu de 20 480, nous vous recommandons de la définir sur 25 % de l'espace de stockage pour chaque nœud.
La valeur de `ClusterIndexWritesBlocked` est >= 1 pendant 5 minutes, 1 fois consécutive	Votre cluster bloque les demandes d'écriture. Consultez ClusterBlockException.
La valeur minimale de `Nodes` est < x pendant 1 jour, 1 fois consécutive	x est le nombre de nœuds de votre cluster. Cette alarme indique qu'au moins un nœud de votre cluster a été inaccessible pendant 1 jour. Consultez Nœuds de cluster en échec.
La valeur maximale de `AutomatedSnapshotFailure` est >= 1 pendant 1 minute, 1 fois consécutive	Un instantané automatique a échoué. Cette défaillance est souvent le résultat d'un état de santé de cluster rouge. Consultez Statut de cluster rouge. Pour obtenir un récapitulatif de tous les instantanés automatiques et des informations sur les défaillances, essayez l'une des requêtes suivantes : `GET domain_endpoint/_snapshot/cs-automated/_all GET domain_endpoint/_snapshot/cs-automated-enc/_all`
`CPUUtilization` ou `WarmCPUUtilization` maximum est >= 80 % pendant 15 minutes, 3 fois consécutives	Une CPU utilisation à 100 % peut parfois se produire, mais une utilisation prolongée à un niveau élevé est problématique. Envisagez d'utiliser des types d'instances plus grands ou d'ajouter des instances.
La valeur maximale de `JVMMemoryPressure` est >= 95 % pendant 1 minutes, 3 fois consécutives	Le cluster peut rencontrer des erreurs de mémoire insuffisante si l'utilisation augmente. Envisagez de le dimensionner verticalement. OpenSearch Le service utilise la moitié de celle d'une instance RAM pour le tas Java, jusqu'à une taille de tas de 32 GiB. Vous pouvez redimensionner les instances verticalement jusqu'à 64 GiBRAM, puis vous pouvez les redimensionner horizontalement en ajoutant des instances.
La valeur maximale de `OldGenJVMMemoryPressure` est >= 80 % pendant 1 minutes, 3 fois consécutives
La valeur maximale de `ManagerCPUUtilization` est >= 50 % pendant 15 minutes, 3 fois consécutives	Envisagez d'utiliser des types d'instances plus grands pour vos nœuds de gestion dédiés. En raison de leur rôle dans la stabilité des clusters et dans les déploiements bleu/vert, les nœuds de gestion dédiés devraient être moins utilisés que les nœuds de CPU données.
La valeur maximale de `ManagerJVMMemoryPressure` est >= 95 % pendant 1 minutes, 3 fois consécutives
La valeur maximale de `ManagerOldGenJVMMemoryPressure` est >= 80 % pendant 1 minutes, 3 fois consécutives
La valeur de `KMSKeyError` est >= 1 pendant 1 minute, 1 fois consécutive	La clé de AWS KMS chiffrement utilisée pour chiffrer les données au repos dans votre domaine est désactivée. Réactivez-la pour revenir à un fonctionnement normal. Pour de plus amples informations, veuillez consulter Chiffrement des données au repos pour Amazon OpenSearch Service.
La valeur de `KMSKeyInaccessible` est >= 1 pendant 1 minute, 1 fois consécutive	La clé de AWS KMS chiffrement utilisée pour chiffrer les données au repos dans votre domaine a été supprimée ou a révoqué ses autorisations au OpenSearch Service. Vous ne pouvez pas récupérer des domaines qui sont à cet état. Cependant, si vous disposez d'un instantané manuel, vous pouvez l'utiliser pour migrer vers un nouveau domaine. Pour en savoir plus, consultez Chiffrement des données au repos pour Amazon OpenSearch Service.
La valeur de `shards.active` est >= 30 000 pendant 1 minute, 1 fois consécutive	Le nombre total de partitions primaires et de partitions de réplica actives est supérieur à 30 000. La rotation des index est peut-être trop fréquente. Envisagez ISM de l'utiliser pour supprimer les index une fois qu'ils atteignent un certain âge.
Alarmes `5xx` >= 10 % de `OpenSearchRequests`	Un ou plusieurs nœuds de données peuvent être surchargés ou les requêtes ne parviennent pas à être terminées pendant la période de délai d'inactivité. Pensez à passer à des types d'instances plus volumineuses ou à ajouter des nœuds supplémentaires au cluster. Confirmez que vous suivez les bonnes pratiques pour l'architecture de partitions et de clusters.
`ManagerReachableFromNode`le maximum est < 1 pendant 5 minutes, 1 fois consécutive	Cette alarme indique que le nœud de gestion s'est arrêté ou est inaccessible. Ces défaillances sont généralement le résultat d'un problème de connectivité réseau ou d'un problème de AWS dépendance.
La valeur de `ThreadpoolWriteQueue` est >= 100 pendant 1 minute, 1 fois consécutive	Le cluster connaît une concurrence d'indexation élevée. Examinez et contrôlez les requêtes d'indexation ou augmentez les ressources du cluster.
La valeur de `ThreadpoolSearchQueue` est >= 500 pendant 1 minute, 1 fois consécutive	Le cluster connaît une concurrence d'indexation élevée. Pensez à dimensionner votre cluster. Vous pouvez également augmenter la taille de la file de recherche, mais son augmentation excessive peut entraîner des erreurs de mémoire insuffisante.
La valeur maximale de `ThreadpoolSearchQueue` est >= 5 000 pendant 1 minute, 1 fois consécutive
L'augmentation `ThreadpoolSearchRejected` SUM est >=1 {expression mathématique DIFF ()} pendant 1 minute, 1 fois consécutive	Ces alarmes vous informent des problèmes liés au domaine qui peuvent avoir un impact sur les performances et la stabilité.
L'augmentation `ThreadpoolWriteRejected` SUM est >=1 {expression mathématique DIFF ()} pendant 1 minute, 1 fois consécutive

Note

Si vous voulez simplement afficher les métriques, consultez Surveillance des métriques OpenSearch du cluster avec Amazon CloudWatch.

Autres alarmes intéressantes

Pensez à configurer les alarmes suivantes en fonction des fonctionnalités OpenSearch du Service que vous utilisez régulièrement.

alerte	Problème
`WarmFreeStorageSpace`est >= 10 %	Vous avez atteint 10 % de votre espace de stockage chaud gratuit total. `WarmFreeStorageSpace`mesure la somme de votre espace de stockage chaud libre en MiB. UltraWarm utilise Amazon S3 plutôt que des disques attachés.
La valeur de `HotToWarmMigrationQueueSize` est >= 20 pendant 1 minute, 3 fois consécutives	Un grand nombre d'index passent simultanément du mode chaud au UltraWarm stockage. Pensez à dimensionner votre cluster.
La valeur minimale de `HotToWarmMigrationSuccessLatency` est >= 1 jour, 1 fois consécutive	Configurez cette alarme pour être averti lorsque la valeur `HotToWarmMigrationSuccessCount` x latence dépasse 24 heures si vous essayez de déployer des index quotidiens.
La valeur maximale de `WarmJVMMemoryPressure` est >= 95 % pendant 1 minutes, 3 fois consécutives	Le cluster peut rencontrer des erreurs de mémoire insuffisante si l'utilisation augmente. Envisagez de le dimensionner verticalement. OpenSearch Le service utilise la moitié de celle d'une instance RAM pour le tas Java, jusqu'à une taille de tas de 32 GiB. Vous pouvez redimensionner les instances verticalement jusqu'à 64 GiBRAM, puis vous pouvez les redimensionner horizontalement en ajoutant des instances.
La valeur maximale de `WarmOldGenJVMMemoryPressure` est >= 80 % pendant 1 minutes, 3 fois consécutives
La valeur de `WarmToColdMigrationQueueSize` est >= 20 pendant 1 minute, 3 fois consécutives	Un grand nombre d'index passent simultanément de l'entrepôt UltraWarm frigorifique. Pensez à dimensionner votre cluster.
La valeur de `HotToWarmMigrationFailureCount` est >= 1 pendant 1 minute, 1 fois consécutive	Les migrations peuvent échouer pendant les instantanés, les relocations de partition ou les fusions forcées. Les échecs lors des instantanés ou de la relocalisation de partitions sont généralement dus à des défaillances de nœud ou à des problèmes de connectivité S3. Le manque d'espace disque est généralement la cause sous-jacente des échecs de fusion forcée.
La valeur de `WarmToColdMigrationFailureCount` est >= 1 pendant 1 minute, 1 fois consécutive	Les migrations échouent généralement lorsque les tentatives de migration des métadonnées d'index vers un stockage frigorifique échouent. Des échecs peuvent également se produire lorsque l'état du cluster d'index à chaud est supprimé.
La valeur de `WarmToColdMigrationLatency` est >= 1 jour, 1 fois consécutive	Configurez cette alarme pour être averti lorsque la valeur `WarmToColdMigrationSuccessCount` x latence dépasse 24 heures si vous essayez de déployer des index quotidiens.
La valeur de `AlertingDegraded` est >= 1 pendant 1 minute, 1 fois consécutive	L'index d'alerte est rouge, ou un ou plusieurs nœuds ne sont pas prévus.
La valeur de `ADPluginUnhealthy` est >= 1 pendant 1 minute, 1 fois consécutive	Le plug-in de détection d'anomalies ne fonctionne pas correctement, soit en raison de taux d'échecs élevés, soit parce que l'un des index utilisés est rouge.
La valeur de `AsynchronousSearchFailureRate` est >= 1 pendant 1 minute, 1 fois consécutive	Au moins une recherche asynchrone a échoué à la dernière minute, ce qui signifie probablement que le nœud du coordinateur a échoué. Le cycle de vie d'une requête de recherche asynchrone est géré uniquement sur le nœud du coordinateur. Par conséquent, si le coordinateur tombe en panne, la requête échoue.
La valeur de `AsynchronousSearchStoreHealth` est >= 1 pendant 1 minute, 1 fois consécutive	L'état du magasin de réponses de recherche asynchrone dans l'index persistant est rouge. Vous stockez peut-être des réponses asynchrones volumineuses, ce qui peut déstabiliser un cluster. Essayez de limiter vos réponses de recherche asynchrones à 10 Mo ou moins.
La valeur de `SQLUnhealthy` est >= 1 pendant 1 minute, 3 fois consécutives	Le SQL plugin renvoie 5 x codes de réponse ou transmet une requête non valide DSL à OpenSearch. Résolvez les demandes que vos clients adressent au plugin.
La valeur de `LTRStatus.red` est >= 1 pendant 1 minute, 1 fois consécutive	Au moins un des index nécessaires à l'exécution du plug-in Learning to Rank contient des partitions principales manquantes et n'est pas fonctionnel.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Nœuds de gestion dédiés

Référence générale