Empfohlene CloudWatch Alarme für Amazon OpenSearch Service - OpenSearch Amazon-Dienst

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Empfohlene CloudWatch Alarme für Amazon OpenSearch Service

CloudWatch Alarme führen eine Aktion aus, wenn eine CloudWatch Metrik für einen bestimmten Zeitraum einen bestimmten Wert überschreitet. Möglicherweise möchten Sie Ihnen eine E-Mail AWS senden, wenn Ihr Cluster-Integritätsstatus red länger als eine Minute andauert. Dieser Abschnitt enthält einige empfohlene Alarme für Amazon OpenSearch Service und wie Sie darauf reagieren können.

Sie können diese Alarme automatisch einrichten mit AWS CloudFormation. Einen Beispielstapel finden Sie im entsprechenden GitHubRepository.

Anmerkung

Wenn Sie den CloudFormation Stack bereitstellen, sind die KMSKeyInaccessible Alarme KMSKeyError und in einem bestimmten Insufficient Data Zustand vorhanden, da diese Metriken nur angezeigt werden, wenn bei einer Domain ein Problem mit ihrem Verschlüsselungsschlüssel auftritt.

Weitere Informationen zur Konfiguration von Alarmen finden Sie unter CloudWatchAmazon-Alarme erstellen im CloudWatch Amazon-Benutzerhandbuch.

Alarm Problem
ClusterStatus.red Maximum ist >= 1 für 1 Minute, 1 Mal hintereinander Mindestens ein primärer Shard und dessen Replikate sind keinem Knoten zugewiesen. Siehe Roter Cluster-Status.
ClusterStatus.yellow Maximum ist >= 1 für 1 Minute, 5 Mal hintereinander Mindestens ein Replikat-Shard ist nicht einem Knoten zugewiesen. Siehe Gelber Cluster-Status.
FreeStorageSpace Minimum ist <= 20480 für 1 Minute, 1 Mal hintereinander Ein Knoten in Ihrem Cluster hat nur noch 20 GiB freien Speicherplatz. Siehe Zu wenig verfügbarer Speicherplatz. Dieser Wert wird in MiB angegeben, statt 20480 empfehlen wir deshalb eine Einstellung auf 25 % Ihres Speicherplatzes pro Knoten.
ClusterIndexWritesBlocked ist >= 1 für 5 Minuten, 1 Mal hintereinander Ihr Cluster blockiert Schreibanforderungen. Siehe ClusterBlockException.
Nodes Minimum ist < x für 1 Tag, 1 Mal hintereinander x ist die Anzahl der Knoten in Ihrem Cluster. Dieser Alarm gibt an, dass mindestens ein Knoten in Ihrem Cluster für einen Tag nicht erreichbar war. Siehe Fehlgeschlagene Cluster-Knoten.
AutomatedSnapshotFailure Maximum ist >= 1 für 1 Minute, 1 Mal hintereinander Ein automatisierter Snapshot ist fehlgeschlagen. Dieser Fehler ist häufig das Ergebnis eines roten Cluster-Integritätsstatus. Siehe Roter Cluster-Status.

Für eine Zusammenfassung aller automatischen Snapshots und einige Informationen zu Ausfällen können Sie auch einen der folgenden Schritte ausprobieren:

GET domain_endpoint/_snapshot/cs-automated/_all GET domain_endpoint/_snapshot/cs-automated-enc/_all
CPUUtilization oder WarmCPUUtilization Maximum ist >= 80 % für 15 Minuten, 3 Mal hintereinander Eine 100%ige CPU-Auslastung kann manchmal auftreten, aber eine anhaltend hohe Auslastung ist problematisch. Ziehen Sie die Verwendung von größeren Instance-Typen oder das Hinzufügen von Instances in Betracht.
JVMMemoryPressure Maximum ist >= 95 % für 1 Minute, 3 Mal hintereinander Der Cluster könnte Fehler aufgrund von unzureichendem Speicherplatz erhalten, wenn die Nutzung zunimmt. Erwägen Sie eine vertikale Skalierung. OpenSearch Der Dienst verwendet die Hälfte des RAM einer Instanz für den Java-Heap, bis zu einer Heap-Größe von 32 GiB. Sie können Instances bis zu 64 GiB RAM vertikal skalieren. Dann können Sie eine horizontale Skalierung durchführen, indem Sie Instances hinzufügen.
OldGenJVMMemoryPressure Maximum ist >= 80 % für 1 Minute, 3 Mal hintereinander
MasterCPUUtilization Maximum ist >= 50 % für 15 Minuten, 3 Mal hintereinander Ziehen Sie die Verwendung von größeren Instance-Typen für Ihre dedizierten Hauptknoten in Betracht. Aufgrund ihrer Rolle für die Cluster-Stabilität und Blau/Grün-Bereitstellungen sollten dedizierte Hauptknoten eine geringere CPU-Nutzung als Datenknoten haben.
MasterJVMMemoryPressure Maximum ist >= 95 % für 1 Minute, 3 Mal hintereinander
MasterOldGenJVMMemoryPressure Maximum ist >= 80 % für 1 Minute, 3 Mal hintereinander
KMSKeyError ist >= 1 für 1 Minute, 1 Mal hintereinander Der AWS KMS Verschlüsselungsschlüssel, der zum Verschlüsseln ruhender Daten in Ihrer Domain verwendet wird, ist deaktiviert. Reaktivieren Sie es, um den normalen Betrieb wiederherzustellen. Weitere Informationen finden Sie unter Verschlüsselung von Daten im Ruhezustand für Amazon OpenSearch Service.
KMSKeyInaccessible ist >= 1 für 1 Minute, 1 Mal hintereinander Der AWS KMS Verschlüsselungsschlüssel, der zum Verschlüsseln von gespeicherten Daten in Ihrer Domain verwendet wird, wurde gelöscht oder der Service wurde nicht mehr gewährt. OpenSearch Für Domains, die sich in diesem Zustand befinden, ist die Wiederherstellung nicht möglich. Wenn Sie jedoch über einen manuellen Snapshot verfügen, können Sie diesen für die Migration zu einer neuen Domain verwenden. Weitere Informationen hierzu finden Sie unter Verschlüsselung von Daten im Ruhezustand für Amazon OpenSearch Service.
shards.active ist >= 30000 für 1 Minute, 1 Mal hintereinander

Die Gesamtzahl der aktiven primären und Replikat-Shards ist größer als 30.000. Möglicherweise rotieren Sie Ihre Indizes zu häufig. Erwägen Sie, ISM zu verwenden, um Indizes zu entfernen, sobald sie ein bestimmtes Alter erreichen.

5xx Alarme >= 10 % von OpenSearchRequests. Ein oder mehrere Datenknoten sind möglicherweise überlastet oder Anfragen können innerhalb des Zeitraums im Leerlauf nicht abgeschlossen werden. Erwägen Sie, zu größeren Instance-Typen zu wechseln oder dem Cluster weitere Knoten hinzuzufügen. Bestätigen Sie Bewährte Methoden für Shard- und Cluster-Architektur.
MasterReachableFromNodeDer Höchstwert ist < 1 für 5 Minuten, 1 Mal hintereinander

Dieser Alarm zeigt an, dass der Hauptknoten angehalten wurde oder nicht erreichbar ist. Diese Ausfälle sind in der Regel auf ein Problem mit der Netzwerkkonnektivität oder auf ein AWS Abhängigkeitsproblem zurückzuführen.

ThreadpoolWriteQueue Durchschnitt ist >= 100 für 1 Minute, 1 Mal hintereinander Der Cluster erlebt eine hohe Indexierungs-Parallelität. Überprüfen und steuern Sie Indexierungsanforderungen oder erhöhen Sie die Clusterressourcen.
ThreadpoolSearchQueue Durchschnitt ist >= 500 für 1 Minute, 1 Mal hintereinander Der Cluster erlebt eine hohe Suchparallelität. Überlegen Sie, Ihren Cluster zu skalieren. Sie können auch die Größe der Suchwarteschlange erhöhen, aber eine übermäßige Erhöhung kann zu Fehlern außerhalb des Speichers führen.
ThreadpoolSearchQueue Maximum ist >= 5000 für 1 Minute, 1 Mal hintereinander
Die Erhöhung der ThreadpoolSearchRejected SUMME beträgt >=1 {mathematischer Ausdruck DIFF ()} für 1 Minute, 1 Mal hintereinander Diese Alarme benachrichtigen Sie über Domain-Probleme, die sich auf Leistung und Stabilität auswirken können.
Die Erhöhung von ThreadpoolWriteRejected SUM beträgt >=1 {mathematischer Ausdruck DIFF ()} für 1 Minute, 1 Mal hintereinander
Anmerkung

Wenn Sie nur Metriken anzeigen möchten, siehe Überwachung von OpenSearch Cluster-Metriken mit Amazon CloudWatch.

Andere Alarme, die Sie in Betracht ziehen könnten

Erwägen Sie, je nachdem, welche OpenSearch Servicefunktionen Sie regelmäßig nutzen, die folgenden Alarme zu konfigurieren.

Alarm Problem
WarmFreeStorageSpaceist >= 10% Sie haben 10% Ihres gesamten freien Warmspeichers erreicht. WarmFreeStorageSpacemisst die Summe Ihres freien warmen Speicherplatzes in MiB. UltraWarm verwendet Amazon S3 anstelle von angeschlossenen Festplatten.
HotToWarmMigrationQueueSize ist >= 20 für 1 Minute, 3 Mal hintereinander

Eine große Anzahl von Indizes wird gleichzeitig vom Hot-in den Speicherbereich verschoben. UltraWarm Überlegen Sie, Ihren Cluster zu skalieren.

HotToWarmMigrationSuccessLatency ist >= 1 Tag, 1 Mal hintereinander

Konfigurieren Sie diesen Alarm so, dass Sie benachrichtigt werden, wenn die HotToWarmMigrationSuccessCount-x-Latenz mehr als 24 Stunden beträgt, wenn Sie versuchen, tägliche Indizes zu rollen.

WarmJVMMemoryPressure Maximum ist >= 95 % für 1 Minute, 3 Mal hintereinander Der Cluster könnte Fehler aufgrund von unzureichendem Speicherplatz erhalten, wenn die Nutzung zunimmt. Erwägen Sie eine vertikale Skalierung. OpenSearch Der Dienst verwendet die Hälfte des RAM einer Instanz für den Java-Heap, bis zu einer Heap-Größe von 32 GiB. Sie können Instances bis zu 64 GiB RAM vertikal skalieren. Dann können Sie eine horizontale Skalierung durchführen, indem Sie Instances hinzufügen.
WarmOldGenJVMMemoryPressure Maximum ist >= 80 % für 1 Minute, 3 Mal hintereinander
WarmToColdMigrationQueueSize ist >= 20 für 1 Minute, 3 Mal hintereinander

Eine große Anzahl von Indizes wird gleichzeitig vom UltraWarm Cold Storage in den Cold Storage verschoben. Überlegen Sie, Ihren Cluster zu skalieren.

HotToWarmMigrationFailureCount ist >= 1 für 1 Minute, 1 Mal hintereinander

Migrationen können während Snapshots, Shard-Verlagerungen oder erzwungenen Zusammenführungen fehlschlagen. Fehler bei Snapshots oder Shard-Verlagerungen sind in der Regel auf Knotenfehler oder S3-Konnektivitätsprobleme zurückzuführen. Ein Mangel an Speicherplatz ist in der Regel die zugrunde liegende Ursache für Fehler bei erzwungenen Zusammenführungen.

WarmToColdMigrationFailureCount ist >= 1 für 1 Minute, 1 Mal hintereinander Migrationen schlagen normalerweise fehl, wenn Versuche, Indexmetadaten auf Cold Storage zu migrieren, fehlschlagen. Fehler können auch auftreten, wenn der Warm-Indexcluster-Status entfernt wird.
WarmToColdMigrationLatency ist >= 1 Tag, 1 Mal hintereinander

Konfigurieren Sie diesen Alarm so, dass Sie benachrichtigt werden, wenn die WarmToColdMigrationSuccessCount-x-Latenz mehr als 24 Stunden beträgt, wenn Sie versuchen, tägliche Indizes zu rollen.

AlertingDegraded ist >= 1 für 1 Minute, 1 Mal hintereinander

Entweder ist der Warnungsindex rot, oder ein oder mehrere Knoten sind nicht im Zeitplan.

ADPluginUnhealthy ist >= 1 für 1 Minute, 1 Mal hintereinander

Das Plug-In zur Anomalieerkennung funktioniert nicht ordnungsgemäß, entweder aufgrund hoher Fehlerraten oder weil einer der verwendeten Indizes rot ist.

AsynchronousSearchFailureRate ist >= 1 für 1 Minute, 1 Mal hintereinander

Mindestens eine asynchrone Suche ist in letzter Minute fehlgeschlagen, was wahrscheinlich bedeutet, dass der Koordinatorknoten fehlgeschlagen ist. Der Lebenszyklus einer asynchronen Suchanfrage wird ausschließlich auf dem Koordinatorknoten verwaltet. Wenn der Koordinator ausfällt, schlägt die Anforderung fehl.

AsynchronousSearchStoreHealth ist >= 1 für 1 Minute, 1 Mal hintereinander

Der Zustand des asynchronen Reaktionsspeichers für die asynchrone Suche im anhaltenden Index ist rot. Möglicherweise speichern Sie große asynchrone Antworten, die einen Cluster destabilisieren können. Versuchen Sie, Ihre asynchronen Suchantworten auf 10 MB oder weniger zu beschränken.

SQLUnhealthy ist >= 1 für 1 Minute, 3 Mal hintereinander

Das SQL-Plug-In gibt 5 Xx-Antwortcodes zurück oder übergibt eine ungültige DSL-Abfrage an. OpenSearch Beheben Sie Probleme mit den Anforderungen, die Ihre Clients an das Plug-in stellen.

LTRStatus.red ist >= 1 für 1 Minute, 1 Mal hintereinander

Mindestens einer der Indizes, die zum Ausführen des Plug-ins „Learning to Rank“ erforderlich sind, ist nicht funktionsfähig, da primäre Shards fehlen.