Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
CloudWatch Alarmes recommandées pour Amazon OpenSearch Service
CloudWatch les alarmes exécutent une action lorsqu'une CloudWatch métrique dépasse une valeur spécifiée pendant un certain temps. Par exemple, vous souhaiterez peut-être vous AWS envoyer un e-mail si l'état de santé de votre cluster red
dure plus d'une minute. Cette section inclut certaines alarmes recommandées pour Amazon OpenSearch Service et explique comment y répondre.
Vous pouvez déployer automatiquement ces alarmes à l'aide de AWS CloudFormation. Pour un exemple de pile, consultez le GitHubréférentiel
Note
Si vous déployez la CloudFormation pile, les KMSKeyInaccessible
alarmes KMSKeyError
et existeront dans un Insufficient
Data
état défini, car ces métriques n'apparaîtront que si un domaine rencontre un problème avec sa clé de chiffrement.
Pour plus d'informations sur la configuration des alarmes, consultez la section Création d' CloudWatchalarmes Amazon dans le guide de CloudWatch l'utilisateur Amazon.
alerte | Problème |
---|---|
La valeur maximale de ClusterStatus.red est >= 1 pendant 1 minute, 1 fois consécutive |
Au moins une partition principale et ses réplicas ne sont pas alloués à un nœud. Consultez Statut de cluster rouge. |
La valeur maximale de ClusterStatus.yellow est >= 1 pendant 1 minute, 5 fois consécutives |
Au moins une partition de réplica n'est pas allouée à un nœud. Consultez Statut de cluster jaune. |
La valeur minimale de FreeStorageSpace est <= 20480 pendant 1 minute, 1 fois consécutive |
Un nœud de votre cluster est descendu à 20 Gio d'espace de stockage disponible. Consultez Manque d'espace de stockage disponible. Cette valeur est en Mio. Par conséquent, au lieu de 20 480, nous vous recommandons de la définir sur 25 % de l'espace de stockage pour chaque nœud. |
La valeur de ClusterIndexWritesBlocked est >= 1 pendant 5 minutes, 1 fois consécutive |
Votre cluster bloque les demandes d'écriture. Consultez ClusterBlockException. |
La valeur minimale de Nodes est < x pendant 1 jour, 1 fois consécutive |
x est le nombre de nœuds de votre cluster. Cette alarme indique qu'au moins un nœud de votre cluster a été inaccessible pendant 1 jour. Consultez Nœuds de cluster en échec. |
La valeur maximale de AutomatedSnapshotFailure est >= 1 pendant 1 minute, 1 fois consécutive |
Un instantané automatique a échoué. Cette défaillance est souvent le résultat d'un état de santé de cluster rouge. Consultez Statut de cluster rouge. Pour obtenir un récapitulatif de tous les instantanés automatiques et des informations sur les défaillances, essayez l'une des requêtes suivantes :
|
CPUUtilization ou WarmCPUUtilization maximum est >= 80 % pendant 15 minutes, 3 fois consécutives |
Une CPU utilisation à 100 % peut parfois se produire, mais une utilisation prolongée à un niveau élevé est problématique. Envisagez d'utiliser des types d'instances plus grands ou d'ajouter des instances. |
La valeur maximale de JVMMemoryPressure est >= 95 % pendant 1 minutes, 3 fois consécutives |
Le cluster peut rencontrer des erreurs de mémoire insuffisante si l'utilisation augmente. Envisagez de le dimensionner verticalement. OpenSearch Le service utilise la moitié de celle d'une instance RAM pour le tas Java, jusqu'à une taille de tas de 32 GiB. Vous pouvez redimensionner les instances verticalement jusqu'à 64 GiBRAM, puis vous pouvez les redimensionner horizontalement en ajoutant des instances. |
La valeur maximale de OldGenJVMMemoryPressure est >= 80 % pendant 1 minutes, 3 fois consécutives |
|
La valeur maximale de ManagerCPUUtilization est >= 50 % pendant 15 minutes, 3 fois consécutives |
Envisagez d'utiliser des types d'instances plus grands pour vos nœuds de gestion dédiés. En raison de leur rôle dans la stabilité des clusters et dans les déploiements bleu/vert, les nœuds de gestion dédiés devraient être moins utilisés que les nœuds de CPU données. |
La valeur maximale de ManagerJVMMemoryPressure est >= 95 % pendant 1 minutes, 3 fois consécutives |
|
La valeur maximale de ManagerOldGenJVMMemoryPressure est >= 80 % pendant 1 minutes, 3 fois consécutives |
|
La valeur de KMSKeyError est >= 1 pendant 1 minute, 1 fois consécutive |
La clé de AWS KMS chiffrement utilisée pour chiffrer les données au repos dans votre domaine est désactivée. Réactivez-la pour revenir à un fonctionnement normal. Pour de plus amples informations, veuillez consulter Chiffrement des données au repos pour Amazon OpenSearch Service. |
La valeur de KMSKeyInaccessible est >= 1 pendant 1 minute, 1 fois consécutive |
La clé de AWS KMS chiffrement utilisée pour chiffrer les données au repos dans votre domaine a été supprimée ou a révoqué ses autorisations au OpenSearch Service. Vous ne pouvez pas récupérer des domaines qui sont à cet état. Cependant, si vous disposez d'un instantané manuel, vous pouvez l'utiliser pour migrer vers un nouveau domaine. Pour en savoir plus, consultez Chiffrement des données au repos pour Amazon OpenSearch Service. |
La valeur de shards.active est >= 30 000 pendant 1 minute, 1 fois consécutive |
Le nombre total de partitions primaires et de partitions de réplica actives est supérieur à 30 000. La rotation des index est peut-être trop fréquente. Envisagez ISM de l'utiliser pour supprimer les index une fois qu'ils atteignent un certain âge. |
Alarmes 5xx >= 10 % de OpenSearchRequests |
Un ou plusieurs nœuds de données peuvent être surchargés ou les requêtes ne parviennent pas à être terminées pendant la période de délai d'inactivité. Pensez à passer à des types d'instances plus volumineuses ou à ajouter des nœuds supplémentaires au cluster. Confirmez que vous suivez les bonnes pratiques pour l'architecture de partitions et de clusters. |
ManagerReachableFromNode le maximum est < 1 pendant 5 minutes, 1 fois consécutive |
Cette alarme indique que le nœud de gestion s'est arrêté ou est inaccessible. Ces défaillances sont généralement le résultat d'un problème de connectivité réseau ou d'un problème de AWS dépendance. |
La valeur de ThreadpoolWriteQueue est >= 100 pendant 1 minute, 1 fois consécutive |
Le cluster connaît une concurrence d'indexation élevée. Examinez et contrôlez les requêtes d'indexation ou augmentez les ressources du cluster. |
La valeur de ThreadpoolSearchQueue est >= 500 pendant 1 minute, 1 fois consécutive |
Le cluster connaît une concurrence d'indexation élevée. Pensez à dimensionner votre cluster. Vous pouvez également augmenter la taille de la file de recherche, mais son augmentation excessive peut entraîner des erreurs de mémoire insuffisante. |
La valeur maximale de ThreadpoolSearchQueue est >= 5 000 pendant 1 minute, 1 fois consécutive |
|
L'augmentation ThreadpoolSearchRejected SUM est >=1 {expression mathématique DIFF ()} pendant 1 minute, 1 fois consécutive |
Ces alarmes vous informent des problèmes liés au domaine qui peuvent avoir un impact sur les performances et la stabilité. |
L'augmentation ThreadpoolWriteRejected SUM est >=1 {expression mathématique DIFF ()} pendant 1 minute, 1 fois consécutive |
Note
Si vous voulez simplement afficher les métriques, consultez Surveillance des métriques OpenSearch du cluster avec Amazon CloudWatch.
Autres alarmes intéressantes
Pensez à configurer les alarmes suivantes en fonction des fonctionnalités OpenSearch du Service que vous utilisez régulièrement.
alerte | Problème |
---|---|
WarmFreeStorageSpace est >= 10 % |
Vous avez atteint 10 % de votre espace de stockage chaud gratuit total. WarmFreeStorageSpace mesure la somme de votre espace de stockage chaud libre en MiB. UltraWarm utilise Amazon S3 plutôt que des disques attachés. |
La valeur de HotToWarmMigrationQueueSize est >= 20 pendant 1 minute, 3 fois consécutives |
Un grand nombre d'index passent simultanément du mode chaud au UltraWarm stockage. Pensez à dimensionner votre cluster. |
La valeur minimale de HotToWarmMigrationSuccessLatency est >= 1 jour, 1 fois consécutive |
Configurez cette alarme pour être averti lorsque la valeur |
La valeur maximale de WarmJVMMemoryPressure est >= 95 % pendant 1 minutes, 3 fois consécutives |
Le cluster peut rencontrer des erreurs de mémoire insuffisante si l'utilisation augmente. Envisagez de le dimensionner verticalement. OpenSearch Le service utilise la moitié de celle d'une instance RAM pour le tas Java, jusqu'à une taille de tas de 32 GiB. Vous pouvez redimensionner les instances verticalement jusqu'à 64 GiBRAM, puis vous pouvez les redimensionner horizontalement en ajoutant des instances. |
La valeur maximale de WarmOldGenJVMMemoryPressure est >= 80 % pendant 1 minutes, 3 fois consécutives |
|
La valeur de WarmToColdMigrationQueueSize est >= 20 pendant 1 minute, 3 fois consécutives |
Un grand nombre d'index passent simultanément de l'entrepôt UltraWarm frigorifique. Pensez à dimensionner votre cluster. |
La valeur de HotToWarmMigrationFailureCount est >= 1 pendant 1 minute, 1 fois consécutive |
Les migrations peuvent échouer pendant les instantanés, les relocations de partition ou les fusions forcées. Les échecs lors des instantanés ou de la relocalisation de partitions sont généralement dus à des défaillances de nœud ou à des problèmes de connectivité S3. Le manque d'espace disque est généralement la cause sous-jacente des échecs de fusion forcée. |
La valeur de WarmToColdMigrationFailureCount est >= 1 pendant 1 minute, 1 fois consécutive |
Les migrations échouent généralement lorsque les tentatives de migration des métadonnées d'index vers un stockage frigorifique échouent. Des échecs peuvent également se produire lorsque l'état du cluster d'index à chaud est supprimé. |
La valeur de WarmToColdMigrationLatency est >= 1 jour, 1 fois consécutive |
Configurez cette alarme pour être averti lorsque la valeur |
La valeur de AlertingDegraded est >= 1 pendant 1 minute, 1 fois consécutive |
L'index d'alerte est rouge, ou un ou plusieurs nœuds ne sont pas prévus. |
La valeur de ADPluginUnhealthy est >= 1 pendant 1 minute, 1 fois consécutive |
Le plug-in de détection d'anomalies ne fonctionne pas correctement, soit en raison de taux d'échecs élevés, soit parce que l'un des index utilisés est rouge. |
La valeur de AsynchronousSearchFailureRate est >= 1 pendant 1 minute, 1 fois consécutive |
Au moins une recherche asynchrone a échoué à la dernière minute, ce qui signifie probablement que le nœud du coordinateur a échoué. Le cycle de vie d'une requête de recherche asynchrone est géré uniquement sur le nœud du coordinateur. Par conséquent, si le coordinateur tombe en panne, la requête échoue. |
La valeur de AsynchronousSearchStoreHealth est >= 1 pendant 1 minute, 1 fois consécutive |
L'état du magasin de réponses de recherche asynchrone dans l'index persistant est rouge. Vous stockez peut-être des réponses asynchrones volumineuses, ce qui peut déstabiliser un cluster. Essayez de limiter vos réponses de recherche asynchrones à 10 Mo ou moins. |
La valeur de SQLUnhealthy est >= 1 pendant 1 minute, 3 fois consécutives |
Le SQL plugin renvoie 5 x codes de réponse ou transmet une requête non valide DSL à OpenSearch. Résolvez les demandes que vos clients adressent au plugin. |
La valeur de LTRStatus.red est >= 1 pendant 1 minute, 1 fois consécutive |
Au moins un des index nécessaires à l'exécution du plug-in Learning to Rank contient des partitions principales manquantes et n'est pas fonctionnel. |