CloudWatch Allarmi consigliati per Amazon Service OpenSearch - OpenSearch Servizio Amazon

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

CloudWatch Allarmi consigliati per Amazon Service OpenSearch

CloudWatch gli allarmi eseguono un'azione quando una CloudWatch metrica supera un valore specificato per un certo periodo di tempo. Ad esempio, potresti volere AWS per inviarti un'e-mail se lo stato di salute del cluster persiste red per più di un minuto. Questa sezione include alcuni allarmi consigliati per Amazon OpenSearch Service e come rispondere ad essi.

Puoi distribuire automaticamente questi allarmi utilizzando AWS CloudFormation. Per uno stack di esempio, consulta il relativo GitHubrepository.

Nota

Se distribuisci lo CloudFormation stack, gli KMSKeyInaccessible allarmi KMSKeyError and esisteranno in Insufficient Data uno stato perché queste metriche vengono visualizzate solo se un dominio riscontra un problema con la sua chiave di crittografia.

Per ulteriori informazioni sulla configurazione degli allarmi, consulta Creating Amazon CloudWatch Alarms nella Amazon CloudWatch User Guide.

Allarme Problema
ClusterStatus.red il massimo è >= 1 per 1 minuto, 1 periodo di tempo consecutivo Almeno una partizioni primaria e le relative repliche non sono assegnate a un nodo. Per informazioni, consulta Cluster in stato rosso.
ClusterStatus.yellow il massimo è >= 1 per 1 minuto, 5 volte consecutive Almeno una partizione di replica non è allocata per un nodo. Per informazioni, consulta Stato giallo del cluster.
FreeStorageSpace minimo è <= 20480 per 1 minuto, 1 periodo di tempo consecutivo Un nodo nel cluster è legato ai 20 GiB di spazio di archiviazione gratuito. Per informazioni, consulta Mancanza di spazio di archiviazione disponibile. Tale valore viene espresso in MiB, perciò anziché su 20480, consigliamo di impostarlo al 25% dello spazio di archiviazione per ogni nodo.
ClusterIndexWritesBlocked è >= 1 per 5 minuti, 1 periodo di tempo consecutivo Il cluster sta bloccando le richieste di scrittura. Per informazioni, consulta ClusterBlockException.
Nodes minimo è x per 1 giorno, 1 periodo di tempo consecutivo x è il numero di nodi del cluster. Questo allarme indica che almeno un nodo nel cluster è stato irraggiungibile per un giorno. Per informazioni, consulta Nodi cluster con errori.
AutomatedSnapshotFailure il massimo è >= 1 per 1 minuto, 1 periodo di tempo consecutivo Uno snapshot automatico ha restituito un errore. Questo errore è spesso il risultato di uno stato del cluster rosso. Per informazioni, consulta Cluster in stato rosso.

Per un riepilogo di tutti gli snapshot automatici e alcune informazioni sui fallimenti, è possibile provare una delle seguenti richieste:

GET domain_endpoint/_snapshot/cs-automated/_all GET domain_endpoint/_snapshot/cs-automated-enc/_all
CPUUtilization o WarmCPUUtilization massimo è >= 80% per 15 minuti, 3 periodi di tempo consecutivi A volte può verificarsi un CPU utilizzo del 100%, ma un utilizzo elevato e prolungato è problematico. Consigliamo di utilizzare tipi di istanza più grandi o aggiungere istanze.
JVMMemoryPressure il massimo è >= 95% per 1 minuto, 3 volte consecutive Sui cluster potrebbero verificarsi errori di esaurimento della memoria nel caso in cui l'utilizzo aumenti. Prendi in considerazione la possibilità di ridimensionare verticalmente. OpenSearch Il servizio utilizza metà di un'istanza RAM per l'heap Java, fino a una dimensione dell'heap di 32 GiB. È possibile scalare le istanze verticalmente fino a 64 GiB diRAM, a quel punto è possibile scalare orizzontalmente aggiungendo istanze.
OldGenJVMMemoryPressure il massimo è >= 80% per 1 minuto, 3 volte consecutive
MasterCPUUtilization il massimo è >= 50% per 15 minuti, 3 periodi di tempo consecutivi Potresti utilizzare tipi di istanza di dimensioni maggiori per i tuoi nodi master dedicati. A causa del loro ruolo nella stabilità del cluster e nelle implementazioni blu/verdi, i nodi master dedicati dovrebbero avere un utilizzo inferiore rispetto ai nodi dati. CPU
MasterJVMMemoryPressure il massimo è >= 95% per 1 minuto, 3 volte consecutive
MasterOldGenJVMMemoryPressure il massimo è >= 80% per 1 minuto, 3 volte consecutive
KMSKeyError è >= 1 per 1 minuto, 1 periodo di tempo consecutivo Il AWS KMS la chiave di crittografia utilizzata per crittografare i dati archiviati nel dominio è disabilitata. Riabilitala per ripristinare le normali operazioni. Per ulteriori informazioni, consultare Crittografia dei dati inattivi per Amazon OpenSearch Service.
KMSKeyInaccessible è >= 1 per 1 minuto, 1 periodo di tempo consecutivo Il AWS KMS la chiave di crittografia utilizzata per crittografare i dati archiviati nel dominio è stata eliminata o ha revocato le sue concessioni al Servizio. OpenSearch Non è possibile recuperare i domini che sono in questo stato. Se hai uno snapshot manuale, puoi utilizzarlo per migrare a un nuovo dominio. Per ulteriori informazioni, consulta Crittografia dei dati inattivi per Amazon OpenSearch Service.
shards.active è >= 30000 per 1 minuto, 1 periodo di tempo consecutivo

Il numero totale di partizioni primarie e di replica attive è maggiore di 30.000. È possibile che gli indici vengano ruotati troppo frequentemente. Prendi in considerazione l'idea ISM di utilizzarli per rimuovere gli indici una volta raggiunta un'età specifica.

Allarmi 5xx >= 10% di OpenSearchRequests Uno o più nodi di dati potrebbero essere sovraccarichi o le richieste non vengono completate entro il periodo di timeout inattivo. Considera il passaggio a tipi di istanza più grandi o di aggiungere più nodi al cluster. Conferma che stai seguendo le best practice per l'architettura di partizioni e cluster.
MasterReachableFromNodeil massimo è < 1 per 5 minuti, 1 volta consecutiva

Questo avviso indica che il nodo principale è stato arrestato o non è raggiungibile. Questi errori sono in genere il risultato di un problema di connettività di rete o di AWS problema di dipendenza.

ThreadpoolWriteQueue medio è >= 100 per 1 minuto, 1 periodo di tempo consecutivo Il cluster sta riscontrando un'elevata concorrenza di indicizzazione. Esamina e controlla le richieste di indicizzazione o aumenta le risorse del cluster.
ThreadpoolSearchQueue medio è >= 500 per 1 minuto, 1 periodo di tempo consecutivo Il cluster sta riscontrando un'elevata concorrenza di ricerca. Considera il dimensionamento del cluster. È inoltre possibile aumentare le dimensioni della coda di ricerca, ma un aumento eccessivo può causare errori di memoria.
ThreadpoolSearchQueue massimo è >= 5000 per 1 minuto, 1 periodo di tempo consecutivo
L'aumento di ThreadpoolSearchRejected SUM è >=1 {math expression DIFF ()} per 1 minuto, 1 volta consecutiva Questi allarmi ti informano di problemi di dominio che potrebbero influire sulle prestazioni e sulla stabilità.
L'aumento di ThreadpoolWriteRejected SUM è >=1 {math expression DIFF ()} per 1 minuto, 1 volta consecutiva
Nota

Se si desidera soltanto visualizzare i parametri, consultare Monitoraggio delle metriche dei OpenSearch cluster con Amazon CloudWatch.

Altri allarmi che potresti prendere in considerazione

Valuta la possibilità di configurare i seguenti allarmi a seconda delle funzionalità del OpenSearch Servizio che utilizzi regolarmente.

Allarme Problema
WarmFreeStorageSpaceè >= 10% Hai raggiunto il 10% del tuo accumulo di calore totale gratuito. WarmFreeStorageSpacemisura la somma dello spazio di archiviazione caldo libero in MiB. UltraWarm utilizza Amazon S3 anziché dischi collegati.
HotToWarmMigrationQueueSize è >= 20 per 1 minuto, 3 periodi di tempo consecutivi

Un numero elevato di indici passa contemporaneamente dallo storage a caldo a quello di storage. UltraWarm Considera il dimensionamento del cluster.

HotToWarmMigrationSuccessLatency è >= 1 giorno, 1 periodo di tempo consecutivo

Configura questo allarme in modo da ricevere una notifica se la latenza x di HotToWarmMigrationSuccessCount è superiore a 24 ore, se stai cercando di utilizzare indici giornalieri.

WarmJVMMemoryPressure il massimo è >= 95% per 1 minuto, 3 volte consecutive Sui cluster potrebbero verificarsi errori di esaurimento della memoria nel caso in cui l'utilizzo aumenti. Prendi in considerazione la possibilità di scalare verticalmente. OpenSearch Il servizio utilizza metà di un'istanza RAM per l'heap Java, fino a una dimensione dell'heap di 32 GiB. È possibile scalare le istanze verticalmente fino a 64 GiB diRAM, a quel punto è possibile scalare orizzontalmente aggiungendo istanze.
WarmOldGenJVMMemoryPressure il massimo è >= 80% per 1 minuto, 3 volte consecutive
WarmToColdMigrationQueueSize è >= 20 per 1 minuto, 3 periodi di tempo consecutivi

Un numero elevato di indici sta passando contemporaneamente dalla conservazione a freddo. UltraWarm Considera il dimensionamento del cluster.

HotToWarmMigrationFailureCount è >= 1 per 1 minuto, 1 periodo di tempo consecutivo

Le migrazioni potrebbero non riuscire durante gli snapshot, le rilocazioni di partizioni o le fusioni forzate. Gli errori durante gli snapshot o il trasferimento di partizioni sono in genere dovuti a errori dei nodi o a problemi di connettività S3. La mancanza di spazio su disco è solitamente la causa sottostante degli errori di unioni forzate.

WarmToColdMigrationFailureCount è >= 1 per 1 minuto, 1 periodo di tempo consecutivo Le migrazioni in genere falliscono quando i tentativi di migrazione dei metadati dell'indice nell'archiviazione a freddo non riescono. È possibile che si verifichino degli errori anche durante la rimozione dello stato del cluster di indice a caldo.
WarmToColdMigrationLatency è >= 1 giorno, 1 periodo di tempo consecutivo

Configura questo allarme in modo da ricevere una notifica se la latenza x di WarmToColdMigrationSuccessCount è superiore a 24 ore, se stai cercando di utilizzare indici giornalieri.

AlertingDegraded è >= 1 per 1 minuto, 1 periodo di tempo consecutivo

L'indice di avviso è rosso oppure uno o più nodi non sono pianificati.

ADPluginUnhealthy è >= 1 per 1 minuto, 1 periodo di tempo consecutivo

Il plugin di rilevamento delle anomalie non funziona correttamente a causa di alti tassi di errore o perché uno degli indici utilizzati è rosso.

AsynchronousSearchFailureRate è >= 1 per 1 minuto, 1 periodo di tempo consecutivo

Almeno una ricerca asincrona non è riuscita nell'ultimo minuto, il che significa che il nodo coordinatore non è riuscito. Il ciclo di vita di una richiesta di ricerca asincrona viene gestito esclusivamente sul nodo del coordinatore, quindi se il coordinatore si interrompe, la richiesta non riesce.

AsynchronousSearchStoreHealth è >= 1 per 1 minuto, 1 periodo di tempo consecutivo

L'integrità dell'archivio delle risposte di ricerca asincrona nell'indice persistente è rossa. È possibile che si stiano memorizzando risposte asincrone di grandi dimensioni, che possono destabilizzare un cluster. Cerca di limitare le risposte di ricerca asincrone a 10 MB o meno.

SQLUnhealthy è >= 1 per 1 minuto, 3 periodi di tempo consecutivi

Il SQL plugin restituisce 5 codici di risposta xx o sta passando una query non valida a. DSL OpenSearch Risolvi i problemi relativi alle richieste che i client stanno facendo al plug-in.

LTRStatus.red è >= 1 per 1 minuto, 1 periodo di tempo consecutivo

Almeno uno degli indici necessari per eseguire il plug-in Learning to Rank (Imparare a classificare) ha partizioni primarie mancanti e non è funzionante.