Cosa è AWS Systems Manager Incident Manager? - Incident Manager

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Cosa è AWS Systems Manager Incident Manager?

Incident Manager, una funzionalità diAWS Systems Manager, è progettato per aiutarti a mitigare e ripristinare gli incidenti che interessano le applicazioni ospitate su. AWS

Nel contesto diAWS, un incidente è qualsiasi interruzione o riduzione non pianificata della qualità dei servizi che può avere un impatto significativo sulle operazioni aziendali. Pertanto, è fondamentale che le organizzazioni stabiliscano una strategia di risposta per mitigare e recuperare in modo efficiente gli incidenti e implementare azioni per prevenire incidenti futuri.

Incident Manager aiuta a ridurre i tempi di risoluzione degli incidenti mediante:

  • Fornire piani automatizzati per coinvolgere in modo efficiente le persone responsabili della risposta agli incidenti.

  • Fornitura di dati pertinenti per la risoluzione dei problemi.

  • Abilitazione di azioni di risposta automatizzate utilizzando runbook di automazione predefiniti.

  • Fornire metodi per collaborare e comunicare con tutte le parti interessate.

Le funzionalità e i flussi di lavoro integrati in Incident Manager si basano sulle migliori pratiche per la risposta agli incidenti che Amazon ha sviluppato fin dalla sua nascita. Incident Manager si integra con Amazon CloudWatch, AWS CloudTrailAWS Systems Manager, e Amazon EventBridge. Servizi AWS

Componenti e funzionalità principali

Questa sezione descrive le funzionalità di Incident Manager utilizzate per configurare i piani di risposta agli incidenti.

Piano di risposta

Un piano di risposta funziona come un modello che definisce cosa deve essere messo in atto quando si verifica un incidente. Include informazioni come:

  • Chi è tenuto a rispondere quando si verifica un incidente.

  • La risposta automatica stabilita per mitigare l'incidente.

  • Lo strumento di collaborazione che i soccorritori devono utilizzare per comunicare e ricevere notifiche automatiche sull'incidente.

Rilevamento degli incidenti

Puoi configurare Amazon CloudWatch alarms e Amazon EventBridge Events per creare incidenti quando vengono rilevate condizioni o modifiche che influiscono sulle tue AWS risorse.

Supporto per l'automazione Runbook

È possibile avviare i runbook di automazione dall'interno di Incident Manager per automatizzare la risposta critica agli incidenti e fornire passaggi dettagliati ai primi soccorritori.

Coinvolgimento ed escalation

Un piano di coinvolgimento specifica tutti coloro che devono notificare ogni singolo incidente. È possibile specificare i singoli contatti che sono stati aggiunti a Incident Manager o specificare una pianificazione delle chiamate creata in Incident Manager. I piani di coinvolgimento specificano anche un percorso di escalation per contribuire a garantire la visibilità tra le parti interessate e la partecipazione attiva durante il processo di risposta agli incidenti.

Orari di chiamata

Una pianificazione delle chiamate in Incident Manager consiste in una o più rotazioni create dall'utente per la pianificazione. Per ogni rotazione, puoi includere fino a 30 contatti. Se aggiunto a un piano di escalation o a un piano di risposta, il programma di chiamata definisce chi riceve una notifica quando si verifica un incidente che richiede l'intervento del soccorritore. Gli orari di chiamata aiutano a garantire una copertura completa e ridondante 24 ore su 24, 7 giorni su 7, in base alle esigenze di risposta agli incidenti.

Collaborazione attiva

I soccorritori rispondono attivamente agli incidenti attraverso l'integrazione con il AWS Chatbot cliente. AWS Chatbotsupporta la creazione di canali di chat per Incident Manager che utilizzano Slack Amazon Chime. Microsoft Teams I soccorritori possono comunicare direttamente tra loro, ricevere notifiche automatiche sugli incidenti Slack ed eseguire Microsoft Teams direttamente alcune operazioni dell'interfaccia a riga di comando (CLI) di Incident Manager.

Diagnosi degli incidenti

I soccorritori possono visualizzare up-to-date le informazioni nella console Incident Manager durante un incidente. In base alle modifiche delle informazioni, i soccorritori possono quindi creare elementi di follow-up e porvi rimedio utilizzando i runbook di automazione.

Risultati tratti da altri servizi

Per supportare la diagnosi degli incidenti da parte dei soccorritori, puoi abilitare la funzionalità Findings in Incident Manager. I risultati sono informazioni sulle AWS CodeDeploy implementazioni e sugli aggiornamenti degli AWS CloudFormation stack avvenuti nel periodo in cui si è verificato un incidente e che hanno coinvolto una o più risorse probabilmente correlate all'incidente. La disponibilità di queste informazioni riduce il tempo necessario per valutare le potenziali cause, il che può ridurre il tempo medio di ripristino (MTTR) da un incidente.

Analisi post-incidente

Dopo la risoluzione di un incidente, si utilizza un'analisi post-incidente per identificare i miglioramenti apportati alla risposta all'incidente, compresi i tempi di rilevamento e mitigazione. Un'analisi può anche aiutarti a comprendere la causa principale degli incidenti. Incident Manager crea azioni di follow-up consigliate che è possibile utilizzare per migliorare la risposta agli incidenti.

Vantaggi dell'utilizzo di Incident Manager

Scopri i vantaggi dell'utilizzo di Incident Manager nelle operazioni di rilevamento e risposta agli incidenti.

Questa sezione descrive i vantaggi che l'organizzazione può ottenere implementando un piano di risposta di Incident Manager.

Diagnostica i problemi in modo efficiente e immediato

Gli CloudWatch allarmi Amazon e EventBridge gli eventi Amazon che configuri possono creare incidenti automaticamente in caso di interruzione o riduzione non pianificata della qualità dei tuoi servizi.

CloudWatch gli allarmi rilevano e segnalano quando ci sono modifiche al valore della metrica o dell'espressione relativa a una soglia in un certo numero di periodi di tempo. EventBridge gli eventi vengono creati come risultato di modifiche in un ambiente, un'applicazione o un servizio specificato in una EventBridge regola. Quando si crea un allarme o un evento, è possibile specificare un'azione per un incidente da creare in Incident Manager e il piano di risposta appropriato per facilitare il coinvolgimento, l'intensificazione e la mitigazione dell'incidente.

Incident Manager offre la possibilità di raccogliere e tracciare automaticamente le metriche relative a un incidente, tramite l'uso di metriche. CloudWatch Oltre alle metriche automatizzate generate per l'incidente quando viene creato tramite un CloudWatch allarme, è possibile aggiungere metriche manualmente in tempo reale, per fornire contesto e dati aggiuntivi ai soccorritori in caso di incidente.

Utilizza la cronologia degli incidenti di Incident Manager per visualizzare i punti di interesse in ordine cronologico. I soccorritori possono anche utilizzare la sequenza temporale per aggiungere eventi personalizzati per descrivere cosa hanno fatto o cosa è successo. I punti di interesse automatici includono:

  • Un CloudWatch allarme o una EventBridge regola crea un incidente.

  • Le metriche degli incidenti vengono segnalate a Incident Manager.

  • I soccorritori sono coinvolti.

  • I passaggi del Runbook sono stati completati correttamente.

Impegnati efficacemente

Incident Manager riunisce i soccorritori attraverso l'uso di contatti, pianificazioni delle chiamate, piani di intervento e canali di chat. È possibile definire i singoli contatti direttamente in Incident Manager e specificare le preferenze di contatto (e-mail, SMS o voce). I contatti vengono aggiunti alle rotazioni programmate durante le chiamate per determinare chi è incaricato di gestire gli incidenti durante un determinato periodo. Utilizzando i contatti definiti e gli orari di chiamata, si creano piani di emergenza per coinvolgere i soccorritori necessari al momento giusto durante un incidente.

Collabora in tempo reale

La comunicazione durante un incidente è la chiave per una risoluzione più rapida. Utilizzando un AWS Chatbot client configurato per l'uso o Amazon Chime SlackMicrosoft Teams, puoi riunire i soccorritori nel loro canale di chat connesso preferito, dove interagiscono direttamente con l'incidente e tra loro. Incident Manager mostra anche le azioni in tempo reale dei soccorritori nel canale di chat, fornendo un contesto agli altri.

Automatizza il ripristino del servizio

Incident Manager consente ai soccorritori di concentrarsi sulle attività chiave necessarie per risolvere un incidente tramite l'uso dei runbook di automazione. In Incident Manager, i runbook sono una serie predefinita di azioni intraprese per risolvere un incidente. Combinano la potenza delle attività automatizzate con i passaggi manuali in base alle necessità, lasciando i soccorritori più disponibili ad analizzare e rispondere all'impatto.

Prevenire incidenti futuri

Utilizzando l'analisi post-incidente di Incident Manager, il team può sviluppare piani di risposta più solidi e apportare modifiche alle applicazioni per prevenire incidenti e tempi di inattività futuri. L'analisi post-incidente consente inoltre l'apprendimento iterativo e il miglioramento dei runbook, dei piani di risposta e delle metriche.

Incident Manager si integra con diversi servizi Servizi AWS e strumenti di terze parti per aiutarti a rilevare e risolvere gli incidenti e a interagire indirettamente con le sue operazioni API e gestire l'infrastruttura. Per informazioni, consulta Integrazioni di prodotti e servizi con Incident Manager.

Accesso a Incident Manager

È possibile accedere a Incident Manager in uno dei seguenti modi:

Regioni e quote di Incident Manager

Incident Manager non è supportato in tutti i Regioni AWS formati supportati da Systems Manager.

Per visualizzare informazioni sulle regioni e sulle quote di Incident Manager, consulta AWS Systems Manager Incident Managerendpoint e quote in. Riferimenti generali di Amazon Web Services

Prezzi per Incident Manager

L'utilizzo di Incident Manager è a pagamento. Per ulteriori informazioni, consulta AWSi prezzi di Systems Manager.

Nota

Altri Servizi AWS contenuti e AWS contenuti di terze parti resi disponibili in relazione a questo servizio possono essere soggetti a costi separati e regolati da condizioni aggiuntive.

Per una panoramica di Trusted Advisor un servizio che consente di ottimizzare i costi, la sicurezza e le prestazioni dell'AWSambiente, consulta AWS Trusted Advisorla Guida per l'AWS Supportutente.