CloudWatch Alarmes recommandées pour Amazon OpenSearch Service - Amazon OpenSearch Service

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

CloudWatch Alarmes recommandées pour Amazon OpenSearch Service

CloudWatch les alarmes exécutent une action lorsqu'une CloudWatch métrique dépasse une valeur spécifiée pendant un certain temps. Par exemple, vous souhaiterez peut-être vous AWS envoyer un e-mail si l'état de santé de votre cluster red dure plus d'une minute. Cette section inclut certaines alarmes recommandées pour Amazon OpenSearch Service et explique comment y répondre.

Vous pouvez déployer automatiquement ces alarmes à l'aide de AWS CloudFormation. Pour un exemple de pile, consultez le GitHubréférentiel correspondant.

Note

Si vous déployez la CloudFormation pile, les KMSKeyInaccessible alarmes KMSKeyError et existeront dans un Insufficient Data état défini, car ces métriques n'apparaîtront que si un domaine rencontre un problème avec sa clé de chiffrement.

Pour plus d'informations sur la configuration des alarmes, consultez la section Création d' CloudWatchalarmes Amazon dans le guide de CloudWatch l'utilisateur Amazon.

alerte Problème
La valeur maximale de ClusterStatus.red est >= 1 pendant 1 minute, 1 fois consécutive Au moins une partition principale et ses réplicas ne sont pas alloués à un nœud. veuillez consulter Statut de cluster rouge.
La valeur maximale de ClusterStatus.yellow est >= 1 pendant 1 minute, 5 fois consécutives Au moins une partition de réplica n'est pas allouée à un nœud. veuillez consulter Statut de cluster jaune.
La valeur minimale de FreeStorageSpace est <= 20480 pendant 1 minute, 1 fois consécutive Un nœud de votre cluster est descendu à 20 Gio d'espace de stockage disponible. veuillez consulter Manque d'espace de stockage disponible. Cette valeur est en Mio. Par conséquent, au lieu de 20 480, nous vous recommandons de la définir sur 25 % de l'espace de stockage pour chaque nœud.
La valeur de ClusterIndexWritesBlocked est >= 1 pendant 5 minutes, 1 fois consécutive Votre cluster bloque les demandes d'écriture. veuillez consulter ClusterBlockException.
La valeur minimale de Nodes est < x pendant 1 jour, 1 fois consécutive x est le nombre de nœuds de votre cluster. Cette alarme indique qu'au moins un nœud de votre cluster a été inaccessible pendant 1 jour. veuillez consulter Nœuds de cluster en échec.
La valeur maximale de AutomatedSnapshotFailure est >= 1 pendant 1 minute, 1 fois consécutive Un instantané automatique a échoué. Cette défaillance est souvent le résultat d'un état de santé de cluster rouge. veuillez consulter Statut de cluster rouge.

Pour obtenir un récapitulatif de tous les instantanés automatiques et des informations sur les défaillances, essayez l'une des requêtes suivantes :

GET domain_endpoint/_snapshot/cs-automated/_all GET domain_endpoint/_snapshot/cs-automated-enc/_all
CPUUtilization ou WarmCPUUtilization maximum est >= 80 % pendant 15 minutes, 3 fois consécutives Une utilisation à 100 % de l'UC peut parfois se produire, mais une utilisation élevée et soutenue est problématique. Envisagez d'utiliser des types d'instances plus grands ou d'ajouter des instances.
La valeur maximale de JVMMemoryPressure est >= 95 % pendant 1 minutes, 3 fois consécutives Le cluster peut rencontrer des erreurs de mémoire insuffisante si l'utilisation augmente. Envisagez de le dimensionner verticalement. OpenSearch Le service utilise la moitié de la RAM d'une instance pour le tas Java, jusqu'à une taille de segment de 32 GiB. Vous pouvez mettre à l'échelle des instances verticalement jusqu'à 64 Gio de RAM, après quoi vous pouvez effectuer une mise à l'échelle horizontale en ajoutant des instances.
La valeur maximale de OldGenJVMMemoryPressure est >= 80 % pendant 1 minutes, 3 fois consécutives
La valeur maximale de MasterCPUUtilization est >= 50 % pendant 15 minutes, 3 fois consécutives Envisagez d'utiliser des types d'instance plus grands pour vos nœuds principaux dédiés. En raison de leur rôle dans la stabilité du cluster et les déploiements bleu/vert, les nœuds principaux dédiés devraient avoir une utilisation de l'UC moyenne inférieure à celle des nœuds de données.
La valeur maximale de MasterJVMMemoryPressure est >= 95 % pendant 1 minutes, 3 fois consécutives
La valeur maximale de MasterOldGenJVMMemoryPressure est >= 80 % pendant 1 minutes, 3 fois consécutives
La valeur de KMSKeyError est >= 1 pendant 1 minute, 1 fois consécutive La clé de AWS KMS chiffrement utilisée pour chiffrer les données au repos dans votre domaine est désactivée. Réactivez-la pour revenir à un fonctionnement normal. Pour plus d’informations, consultez Chiffrement des données au repos pour Amazon OpenSearch Service.
La valeur de KMSKeyInaccessible est >= 1 pendant 1 minute, 1 fois consécutive La clé de AWS KMS chiffrement utilisée pour chiffrer les données au repos dans votre domaine a été supprimée ou a révoqué ses autorisations au OpenSearch Service. Vous ne pouvez pas récupérer des domaines qui sont à cet état. Cependant, si vous disposez d'un instantané manuel, vous pouvez l'utiliser pour migrer vers un nouveau domaine. Pour en savoir plus, veuillez consulter la section Chiffrement des données au repos pour Amazon OpenSearch Service.
La valeur de shards.active est >= 30 000 pendant 1 minute, 1 fois consécutive

Le nombre total de partitions primaires et de partitions de réplica actives est supérieur à 30 000. La rotation des index est peut-être trop fréquente. Envisagez d'utiliser ISM pour supprimer les index une fois qu'ils atteignent un âge spécifique.

Alarmes 5xx >= 10 % de OpenSearchRequests Un ou plusieurs nœuds de données peuvent être surchargés ou les requêtes ne parviennent pas à être terminées pendant la période de délai d'inactivité. Pensez à passer à des types d'instances plus volumineuses ou à ajouter des nœuds supplémentaires au cluster. Confirmez que vous suivez les bonnes pratiques pour l'architecture de partitions et de clusters.
MasterReachableFromNodele maximum est inférieur à 1 pendant 5 minutes, 1 fois consécutive

Cette alarme indique que le nœud principal s'est arrêté ou est inaccessible. Ces défaillances sont généralement le résultat d'un problème de connectivité réseau ou d'un problème de AWS dépendance.

La valeur de ThreadpoolWriteQueue est >= 100 pendant 1 minute, 1 fois consécutive Le cluster connaît une concurrence d'indexation élevée. Examinez et contrôlez les requêtes d'indexation ou augmentez les ressources du cluster.
La valeur de ThreadpoolSearchQueue est >= 500 pendant 1 minute, 1 fois consécutive Le cluster connaît une concurrence d'indexation élevée. Pensez à dimensionner votre cluster. Vous pouvez également augmenter la taille de la file de recherche, mais son augmentation excessive peut entraîner des erreurs de mémoire insuffisante.
La valeur maximale de ThreadpoolSearchQueue est >= 5 000 pendant 1 minute, 1 fois consécutive
L'augmentation de ThreadpoolSearchRejected SUM est >=1 {expression mathématique DIFF ()} pendant 1 minute, 1 fois consécutive Ces alarmes vous informent des problèmes liés au domaine qui peuvent avoir un impact sur les performances et la stabilité.
L'augmentation de ThreadpoolWriteRejected SUM est >=1 {expression mathématique DIFF ()} pendant 1 minute, 1 fois consécutive
Note

Si vous voulez simplement afficher les métriques, consultez Surveillance des métriques OpenSearch du cluster avec Amazon CloudWatch.

Autres alarmes intéressantes

Pensez à configurer les alarmes suivantes en fonction des fonctionnalités OpenSearch du Service que vous utilisez régulièrement.

alerte Problème
WarmFreeStorageSpaceest >= 10 % Vous avez atteint 10 % de votre espace de stockage chaud gratuit total. WarmFreeStorageSpacemesure la somme de votre espace de stockage chaud libre en MiB. UltraWarm utilise Amazon S3 plutôt que des disques attachés.
La valeur de HotToWarmMigrationQueueSize est >= 20 pendant 1 minute, 3 fois consécutives

Un grand nombre d'index passent simultanément du mode « hot » au UltraWarm « stockage ». Pensez à dimensionner votre cluster.

La valeur minimale de HotToWarmMigrationSuccessLatency est >= 1 jour, 1 fois consécutive

Configurez cette alarme pour être averti lorsque la valeur HotToWarmMigrationSuccessCount x latence dépasse 24 heures si vous essayez de déployer des index quotidiens.

La valeur maximale de WarmJVMMemoryPressure est >= 95 % pendant 1 minutes, 3 fois consécutives Le cluster peut rencontrer des erreurs de mémoire insuffisante si l'utilisation augmente. Envisagez de le dimensionner verticalement. OpenSearch Le service utilise la moitié de la RAM d'une instance pour le tas Java, jusqu'à une taille de segment de 32 GiB. Vous pouvez mettre à l'échelle des instances verticalement jusqu'à 64 Gio de RAM, après quoi vous pouvez effectuer une mise à l'échelle horizontale en ajoutant des instances.
La valeur maximale de WarmOldGenJVMMemoryPressure est >= 80 % pendant 1 minutes, 3 fois consécutives
La valeur de WarmToColdMigrationQueueSize est >= 20 pendant 1 minute, 3 fois consécutives

Un grand nombre d'index passent simultanément de l'entrepôt UltraWarm frigorifique. Pensez à dimensionner votre cluster.

La valeur de HotToWarmMigrationFailureCount est >= 1 pendant 1 minute, 1 fois consécutive

Les migrations peuvent échouer pendant les instantanés, les relocations de partition ou les fusions forcées. Les échecs lors des instantanés ou de la relocalisation de partitions sont généralement dus à des défaillances de nœud ou à des problèmes de connectivité S3. Le manque d'espace disque est généralement la cause sous-jacente des échecs de fusion forcée.

La valeur de WarmToColdMigrationFailureCount est >= 1 pendant 1 minute, 1 fois consécutive Les migrations échouent généralement lorsque les tentatives de migration des métadonnées d'index vers un stockage frigorifique échouent. Des échecs peuvent également se produire lorsque l'état du cluster d'index à chaud est supprimé.
La valeur de WarmToColdMigrationLatency est >= 1 jour, 1 fois consécutive

Configurez cette alarme pour être averti lorsque la valeur WarmToColdMigrationSuccessCount x latence dépasse 24 heures si vous essayez de déployer des index quotidiens.

La valeur de AlertingDegraded est >= 1 pendant 1 minute, 1 fois consécutive

L'index d'alerte est rouge, ou un ou plusieurs nœuds ne sont pas prévus.

La valeur de ADPluginUnhealthy est >= 1 pendant 1 minute, 1 fois consécutive

Le plug-in de détection d'anomalies ne fonctionne pas correctement, soit en raison de taux d'échecs élevés, soit parce que l'un des index utilisés est rouge.

La valeur de AsynchronousSearchFailureRate est >= 1 pendant 1 minute, 1 fois consécutive

Au moins une recherche asynchrone a échoué à la dernière minute, ce qui signifie probablement que le nœud du coordinateur a échoué. Le cycle de vie d'une requête de recherche asynchrone est géré uniquement sur le nœud du coordinateur. Par conséquent, si le coordinateur tombe en panne, la requête échoue.

La valeur de AsynchronousSearchStoreHealth est >= 1 pendant 1 minute, 1 fois consécutive

L'état du magasin de réponses de recherche asynchrone dans l'index persistant est rouge. Vous stockez peut-être des réponses asynchrones volumineuses, ce qui peut déstabiliser un cluster. Essayez de limiter vos réponses de recherche asynchrones à 10 Mo ou moins.

La valeur de SQLUnhealthy est >= 1 pendant 1 minute, 3 fois consécutives

Le plugin SQL renvoie 5 xx codes de réponse ou transmet une requête DSL non valide à OpenSearch. Résolvez les demandes que vos clients adressent au plugin.

La valeur de LTRStatus.red est >= 1 pendant 1 minute, 1 fois consécutive

Au moins un des index nécessaires à l'exécution du plug-in Learning to Rank contient des partitions principales manquantes et n'est pas fonctionnel.