Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
AWS collabora con te per definire metriche e allarmi per fornire visibilità sulle prestazioni delle tue applicazioni e della loro infrastruttura sottostante AWS . Chiediamo che gli allarmi rispettino i seguenti criteri durante la definizione e la configurazione delle soglie:
Gli allarmi entrano nello stato «Allarme» solo quando si verifica un impatto critico sul carico di lavoro monitorato (perdita di ricavi o peggioramento dell'esperienza del cliente che riduce significativamente le prestazioni) che richiede l'attenzione immediata dell'operatore.
Gli allarmi devono inoltre coinvolgere i risolutori specificati per il carico di lavoro contemporaneamente o prima di coinvolgere il team di gestione degli incidenti. I tecnici addetti alla gestione degli incidenti devono collaborare con i risolutori specificati nel processo di mitigazione, non fungere da soccorritori di prima linea e poi rivolgersi a voi.
Le soglie di allarme devono essere impostate su una soglia e una durata appropriate in modo che ogni volta che scatta un allarme, sia necessaria un'indagine. Se un allarme oscilla tra lo stato «Allarme» e «OK», si verifica un impatto sufficiente a giustificare la risposta e l'attenzione dell'operatore.
Tipi di allarmi:
Allarmi che illustrano il livello di impatto aziendale e trasmettono informazioni pertinenti per una semplice rilevazione dei guasti.
CloudWatch Canarini Amazon. Per ulteriori informazioni, vedere Canaries and X-Ray tracing e X-Ray.
Allarme aggregato (monitoraggio delle dipendenze)
La tabella seguente fornisce esempi di allarmi, tutti basati sul sistema di monitoraggio. CloudWatch
Nome della metrica/Soglia di allarme | ARN di allarme o ID della risorsa | Se questo allarme si attiva | Se richiesto, chiudi un Premium Support Case per questi servizi |
---|---|---|---|
Errori API/ Numero di errori >= 10 per 10 punti dati |
arn:aws:cloudwatch:us-west- 2:000000000000:alarm:E2 Lambda-Errors MPmim |
Ticket inviato al team di amministratori del database (DBA) |
Lambda, API Gateway |
ServiceUnavailable (Codice di stato Http 503) Numero di errori >=3 per 10 punti dati (client diversi) in una finestra di 5 minuti |
arn:aws:cloudwatch:us-west-2:xxxxx:alarm:httperrorcode503 |
Ticket consegnato al team di assistenza |
Lambda, API Gateway |
ThrottlingException (Codice di stato Http 400) Numero di errori >=3 per 10 punti dati (client diversi) in una finestra di 5 minuti |
arn:aws:cloudwatch:us-west-2:xxxxx:alarm:httperrorcode400 |
Ticket consegnato al team di assistenza |
EC2, Amazon Aurora |
Per ulteriori dettagli, consulta Monitoraggio e osservabilità di AWS Incident Detection and Response.
Uscite principali:
Definizione e configurazione degli allarmi sui carichi di lavoro.
Completamento dei dettagli degli allarmi nel questionario di onboarding.