Altri allarmi che potresti prendere in considerazione

CloudWatch Allarmi consigliati per Amazon Service OpenSearch

CloudWatch gli allarmi eseguono un'azione quando una CloudWatch metrica supera un valore specificato per un certo periodo di tempo. Ad esempio, potresti voler AWS inviarti un'e-mail se lo stato di salute del cluster dura più red di un minuto. Questa sezione include alcuni allarmi consigliati per Amazon OpenSearch Service e come rispondere ad essi.

Puoi distribuire automaticamente questi allarmi utilizzando. CloudFormationPer uno stack di esempio, consulta il relativo repository. GitHub

Nota

Se distribuisci lo CloudFormation stack, gli KMSKeyInaccessible allarmi KMSKeyError and esisteranno in Insufficient Data uno stato perché queste metriche vengono visualizzate solo se un dominio riscontra un problema con la sua chiave di crittografia.

Per ulteriori informazioni sulla configurazione degli allarmi, consulta Creating Amazon CloudWatch Alarms nella Amazon CloudWatch User Guide.

Allarme	Problema
`ClusterStatus.red` il massimo è >= 1 per 1 minuto, 1 periodo di tempo consecutivo	Almeno una partizioni primaria e le relative repliche non sono assegnate a un nodo. Per informazioni, consulta Cluster in stato rosso.
`ClusterStatus.yellow` il massimo è >= 1 per 1 minuto, 5 volte consecutive	Almeno una partizione di replica non è allocata per un nodo. Per informazioni, consulta Stato giallo del cluster.
`FreeStorageSpace` minimo è <= 20480 per 1 minuto, 1 periodo di tempo consecutivo	Un nodo nel cluster è legato ai 20 GiB di spazio di archiviazione gratuito. Per informazioni, consulta Mancanza di spazio di archiviazione disponibile. Tale valore viene espresso in MiB, perciò anziché su 20480, consigliamo di impostarlo al 25% dello spazio di archiviazione per ogni nodo.
`ClusterIndexWritesBlocked` è >= 1 per 5 minuti, 1 periodo di tempo consecutivo	Il cluster sta bloccando le richieste di scrittura. Per informazioni, consulta ClusterBlockException.
`Nodes` minimo è x per 1 giorno, 1 periodo di tempo consecutivo	x è il numero di nodi del cluster. Questo allarme indica che almeno un nodo del cluster è risultato irraggiungibile a un certo punto nell'arco di un giorno. Per informazioni, consulta Nodi cluster con errori.
`AutomatedSnapshotFailure` il massimo è >= 1 per 1 minuto, 1 periodo di tempo consecutivo	Uno snapshot automatico ha restituito un errore. Questo errore è spesso il risultato di uno stato del cluster rosso. Per informazioni, consulta Cluster in stato rosso. Per un riepilogo di tutti gli snapshot automatici e alcune informazioni sui fallimenti, è possibile provare una delle seguenti richieste: `GET domain_endpoint/_snapshot/cs-automated/_all GET domain_endpoint/_snapshot/cs-automated-enc/_all`
`CPUUtilization` o `WarmCPUUtilization` massimo è >= 80% per 15 minuti, 3 periodi di tempo consecutivi	A volte può verificarsi un utilizzo della CPU al 100%, ma un uso elevato e sostenuto può rappresentare un problema. Consigliamo di utilizzare tipi di istanza più grandi o aggiungere istanze.
`JVMMemoryPressure` il massimo è >= 95% per 1 minuto, 3 volte consecutive	Sui cluster potrebbero verificarsi errori di esaurimento della memoria nel caso in cui l'utilizzo aumenti. Prendi in considerazione la possibilità di scalare verticalmente. OpenSearch Il servizio utilizza metà della RAM di un'istanza per l'heap Java, fino a una dimensione dell'heap di 32 GiB. Puoi scalare le istanze verticalmente fino a 64 GiB di RAM e poi scalare orizzontalmente aggiungendo le istanze.
`OldGenJVMMemoryPressure` il massimo è >= 80% per 1 minuto, 3 volte consecutive
`MasterCPUUtilization` il massimo è >= 50% per 15 minuti, 3 periodi di tempo consecutivi	Potresti utilizzare tipi di istanza di dimensioni maggiori per i tuoi nodi master dedicati. A causa del loro ruolo nella stabilità e nelle blue/greenimplementazioni del cluster, i nodi master dedicati dovrebbero avere un utilizzo della CPU inferiore rispetto ai nodi di dati.
`MasterJVMMemoryPressure` il massimo è >= 95% per 1 minuto, 3 volte consecutive
`MasterOldGenJVMMemoryPressure` il massimo è >= 80% per 1 minuto, 3 volte consecutive
`KMSKeyError` è >= 1 per 1 minuto, 1 periodo di tempo consecutivo	La chiave di AWS KMS crittografia utilizzata per crittografare i dati archiviati nel dominio è disabilitata. Re-enable per ripristinare le normali operazioni. Per ulteriori informazioni, consulta Crittografia dei dati inattivi per Amazon OpenSearch Service.
`KMSKeyInaccessible` è >= 1 per 1 minuto, 1 periodo di tempo consecutivo	La chiave di AWS KMS crittografia utilizzata per crittografare i dati archiviati nel dominio è stata eliminata o ha revocato le sue concessioni al Servizio. OpenSearch Non è possibile recuperare i domini che sono in questo stato. Se hai uno snapshot manuale, puoi utilizzarlo per migrare a un nuovo dominio. Per ulteriori informazioni, consulta Crittografia dei dati inattivi per Amazon OpenSearch Service.
`shards.active`è >= (25 × dimensione dell'heap JVM in GiB × numero di nodi dati) per 1 minuto, 1 volta consecutiva	Il numero totale di shard primari e di replica attivi supera il limite consigliato di 25 shard per GiB di memoria heap Java per nodo. Ad esempio, un cluster a 3 nodi con un heap da 32 GiB per nodo non deve avere più di 2.400 shard (25 × 32 × 3). È possibile che gli indici vengano ruotati troppo frequentemente. Prendi in considerazione l'utilizzo di ISM per rimuovere gli indici una volta raggiunta un'età specifica.
Allarmi `5xx` >= 10% di `OpenSearchRequests`	Uno o più nodi di dati potrebbero essere sovraccarichi o le richieste non vengono completate entro il periodo di timeout inattivo. Considera il passaggio a tipi di istanza più grandi o di aggiungere più nodi al cluster. Conferma che stai seguendo le best practice per l'architettura di partizioni e cluster.
`MasterReachableFromNode`il massimo è < 1 per 5 minuti, 1 volta consecutiva	Questo avviso indica che il nodo principale è stato arrestato o non è raggiungibile. Questi errori sono in genere il risultato di un problema di connettività di rete o di AWS dipendenza.
`ThreadpoolWriteQueue` medio è >= 100 per 1 minuto, 1 periodo di tempo consecutivo	Il cluster sta riscontrando un'elevata concorrenza di indicizzazione. Esamina e controlla le richieste di indicizzazione o aumenta le risorse del cluster.
`ThreadpoolSearchQueue` medio è >= 500 per 1 minuto, 1 periodo di tempo consecutivo	Il cluster sta riscontrando un'elevata concorrenza di ricerca. Considera il dimensionamento del cluster. È inoltre possibile aumentare le dimensioni della coda di ricerca, ma un aumento eccessivo può causare errori di memoria.
`ThreadpoolSearchQueue` massimo è >= 5000 per 1 minuto, 1 periodo di tempo consecutivo
L'aumento di `ThreadpoolSearchRejected` SUM è >=1 {espressione matematica DIFF ()} per 1 minuto, 1 volta consecutiva	Questi allarmi ti informano di problemi di dominio che potrebbero influire sulle prestazioni e sulla stabilità.
L'aumento di `ThreadpoolWriteRejected` SUM è >=1 {espressione matematica DIFF ()} per 1 minuto, 1 volta consecutiva

Nota

Se si desidera soltanto visualizzare i parametri, consultare Monitoraggio delle metriche dei OpenSearch cluster con Amazon CloudWatch.

Altri allarmi che potresti prendere in considerazione

Valuta la possibilità di configurare i seguenti allarmi a seconda delle funzionalità di OpenSearch servizio che utilizzi regolarmente.

Allarme	Problema
`WarmFreeStorageSpace`è >= 10%	Hai raggiunto il 10% del tuo accumulo di calore totale gratuito. `WarmFreeStorageSpace`misura la somma dello spazio di archiviazione caldo libero in MiB. UltraWarm utilizza Amazon S3 anziché dischi collegati.
`HotToWarmMigrationQueueSize` è >= 20 per 1 minuto, 3 periodi di tempo consecutivi	Un numero elevato di indici passa contemporaneamente dallo storage a caldo a quello di storage. UltraWarm Considera il dimensionamento del cluster.
`HotToWarmMigrationSuccessLatency` è >= 1 giorno, 1 periodo di tempo consecutivo	Configura questo allarme in modo da ricevere una notifica se la latenza x di `HotToWarmMigrationSuccessCount` è superiore a 24 ore, se stai cercando di utilizzare indici giornalieri.
`WarmJVMMemoryPressure` il massimo è >= 95% per 1 minuto, 3 volte consecutive	Sui cluster potrebbero verificarsi errori di esaurimento della memoria nel caso in cui l'utilizzo aumenti. Considerare il dimensionamento verticale. OpenSearch Il servizio utilizza metà della RAM di un'istanza per l'heap Java, fino a una dimensione dell'heap di 32 GiB. Puoi scalare le istanze verticalmente fino a 64 GiB di RAM e poi scalare orizzontalmente aggiungendo le istanze.
`WarmOldGenJVMMemoryPressure` il massimo è >= 80% per 1 minuto, 3 volte consecutive
`WarmToColdMigrationQueueSize` è >= 20 per 1 minuto, 3 periodi di tempo consecutivi	Un numero elevato di indici sta passando contemporaneamente dalla conservazione a freddo. UltraWarm Considera il dimensionamento del cluster.
`HotToWarmMigrationFailureCount` è >= 1 per 1 minuto, 1 periodo di tempo consecutivo	Le migrazioni potrebbero non riuscire durante gli snapshot, le rilocazioni di partizioni o le fusioni forzate. Gli errori durante gli snapshot o il trasferimento di partizioni sono in genere dovuti a errori dei nodi o a problemi di connettività S3. La mancanza di spazio su disco è solitamente la causa sottostante degli errori di unioni forzate.
`WarmToColdMigrationFailureCount` è >= 1 per 1 minuto, 1 periodo di tempo consecutivo	Le migrazioni in genere falliscono quando i tentativi di migrazione dei metadati dell'indice nell'archiviazione a freddo non riescono. È possibile che si verifichino degli errori anche durante la rimozione dello stato del cluster di indice a caldo.
`WarmToColdMigrationLatency` è >= 1 giorno, 1 periodo di tempo consecutivo	Configura questo allarme in modo da ricevere una notifica se la latenza x di `WarmToColdMigrationSuccessCount` è superiore a 24 ore, se stai cercando di utilizzare indici giornalieri.
`AlertingDegraded` è >= 1 per 1 minuto, 1 periodo di tempo consecutivo	L'indice di avviso è rosso oppure uno o più nodi non sono pianificati.
`ADPluginUnhealthy` è >= 1 per 1 minuto, 1 periodo di tempo consecutivo	Il plugin di rilevamento delle anomalie non funziona correttamente a causa di alti tassi di errore o perché uno degli indici utilizzati è rosso.
`AsynchronousSearchFailureRate` è >= 1 per 1 minuto, 1 periodo di tempo consecutivo	Almeno una ricerca asincrona non è riuscita nell'ultimo minuto, il che significa che il nodo coordinatore non è riuscito. Il ciclo di vita di una richiesta di ricerca asincrona viene gestito esclusivamente sul nodo del coordinatore, quindi se il coordinatore si interrompe, la richiesta non riesce.
`AsynchronousSearchStoreHealth` è >= 1 per 1 minuto, 1 periodo di tempo consecutivo	L'integrità dell'archivio delle risposte di ricerca asincrona nell'indice persistente è rossa. È possibile che si stiano memorizzando risposte asincrone di grandi dimensioni, che possono destabilizzare un cluster. Cerca di limitare le risposte di ricerca asincrone a 10 MB o meno.
`SQLUnhealthy` è >= 1 per 1 minuto, 3 periodi di tempo consecutivi	Il plugin SQL restituisce 5 codici di risposta xx o passa una query DSL non valida a. OpenSearch Risolvi i problemi relativi alle richieste che i client stanno facendo al plug-in.
`LTRStatus.red` è >= 1 per 1 minuto, 1 periodo di tempo consecutivo	Almeno uno degli indici necessari per eseguire il plug-in Learning to Rank (Imparare a classificare) ha partizioni primarie mancanti e non è funzionante.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Best practice

Dimensionamento dei domini