Questionario sull'onboarding del carico di lavoro - Domande generali Questionario sull'onboarding del carico di lavoro - Domande sull'architettura Questionario di onboarding sul carico di lavoro - Domande relative agli eventi di servizio AWS Questionario sull'ingestione degli allarmi Matrice di allarme

Questionari di onboarding del carico di lavoro e inserimento degli allarmi in Incident Detection and Response

Questa pagina fornisce i questionari da completare durante l'onboarding di un carico di lavoro in AWS Incident Detection and Response e quando si configurano gli allarmi da inserire nel servizio. Il questionario di onboarding del carico di lavoro contiene informazioni generali sul carico di lavoro, sui dettagli dell'architettura e sui contatti per la risposta agli incidenti. Nel questionario di inserimento degli allarmi, specifichi gli allarmi critici che dovrebbero innescare la creazione di incidenti in Incident Detection and Response per il tuo carico di lavoro, oltre a informazioni di runbook su chi contattare e quali azioni intraprendere. La corretta compilazione di questi questionari è un passaggio fondamentale nella configurazione dei processi di monitoraggio e risposta agli incidenti per i carichi di lavoro. AWS

Scarica il questionario di onboarding sul carico di lavoro.

Scarica il questionario sull'ingestione degli allarmi.

Questionario sull'onboarding del carico di lavoro - Domande generali

Domande generali
Domanda	Risposta di esempio
Nome dell'azienda	Amazon Inc.
Nome di questo carico di lavoro (includi eventuali abbreviazioni)	Operazioni di vendita al dettaglio su Amazon (ARO)
Utente finale principale e funzione di questo carico di lavoro.	Questo carico di lavoro è un'applicazione di e-commerce che consente agli utenti finali di acquistare vari articoli. Questo carico di lavoro è il principale generatore di entrate per la nostra attività.
Requisiti di conformità e/o normativi applicabili per questo carico di lavoro e qualsiasi azione richiesta AWS dopo un incidente.	Il carico di lavoro riguarda le cartelle cliniche dei pazienti, che devono essere mantenute protette e riservate.

Questionario di onboarding sul carico di lavoro - Domande sull'architettura

Domande sull'architettura
Domanda	Risposta di esempio
Un elenco di tag di AWS risorsa utilizzati per definire le risorse che fanno parte di questo carico di lavoro. AWS utilizza questi tag per identificare le risorse di questo carico di lavoro e velocizzare il supporto durante gli incidenti. Nota I tag rispettano la distinzione tra maiuscole e minuscole. Se fornisci più tag, tutte le risorse utilizzate da questo carico di lavoro devono avere gli stessi tag.	appName: Optimax ambiente: Produzione
Un elenco dei AWS servizi utilizzati da questo carico di lavoro e degli AWS account e delle regioni in cui si trovano. Nota Crea una nuova riga per ogni servizio.	Route 53: indirizza il traffico Internet versoALB. Conto: 123456789101 Regione: US- -1, US- -2 EAST WEST
Un elenco dei AWS servizi utilizzati da questo carico di lavoro, con l' AWS account e le aree geografiche in cui si trovano. Nota Crea una nuova riga per ogni servizio.	ALB: indirizza il traffico in entrata verso un gruppo target di ECS contenitori. Conto: 123456789101 Regione: N/A
Un elenco dei AWS servizi utilizzati da questo carico di lavoro e degli AWS account e delle aree in cui si trovano. Nota Crea una nuova riga per ogni servizio.	ECS: infrastruttura di calcolo per il parco logico aziendale principale. Responsabile della gestione delle richieste degli utenti in arrivo e dell'invio di query al livello di persistenza. Conto: 123456789101 Regione: US- -1 EAST
Un elenco dei AWS servizi utilizzati da questo carico di lavoro e degli AWS account e delle regioni in cui si trovano. Nota Crea una nuova riga per ogni servizio.	RDS: Il cluster Amazon Aurora archivia i dati degli utenti a cui si accede tramite il livello di logica ECS aziendale. Account: 123456789101 Regione: US- -1 EAST
Un elenco dei AWS servizi utilizzati da questo carico di lavoro e degli AWS account e delle regioni in cui si trovano. Nota Crea una nuova riga per ogni servizio.	S3: memorizza le risorse statiche del sito Web. Conto: 123456789101 Regione: N/A
Descrivi in dettaglio eventuali componenti upstream/downstream non integrati che potrebbero influire su questo carico di lavoro in caso di interruzione.	Microservizio di autenticazione: impedirà agli utenti di caricare le proprie cartelle cliniche poiché non saranno autenticate.
Esistono componenti locali o non per questo carico di lavoro?AWS In caso affermativo, quali sono e quali funzioni vengono eseguite?	Tutto il traffico in entrata e in uscita da Internet AWS viene instradato tramite il nostro servizio proxy locale.
Fornisci dettagli su eventuali piani di failover/disaster recovery manuali o automatizzati a livello di zona di disponibilità e regionale.	Standby a caldo. Failover automatico verso WEST US-2 durante un calo prolungato della percentuale di successo.

Questionario di onboarding sul carico di lavoro - Domande sugli eventi di servizio AWS

AWS Domande sugli eventi di servizio
Domanda	Risposta di esempio
Fornisci i dati di contatto (team di gestione delle name/email/phone) of your company's internal major incident/IT crisi).	Team di gestione degli incidenti principali mim@example.com +61 2 3456 7890
Fornite i dettagli di qualsiasi ponte statico di gestione degli incidenti/crisi stabilito dalla vostra azienda. Se utilizzate bridge non statici, specificate l'applicazione preferita e AWS richiederete questi dettagli durante un incidente. Nota Se non ne viene fornito uno, AWS ti contatterà durante un incidente e ti fornirà un bridge Chime a cui unirti.	Amazon Chime https://chime.aws/1234567890

Questionario sull'ingestione degli allarmi

Domande sul runbook
Domanda	Risposta di esempio
AWS coinvolgerà i contatti del carico di lavoro tramite il Supporto Case. Chi è il contatto principale quando si attiva un allarme per questo carico di lavoro? Specificate la vostra applicazione di conferenza preferita e AWS richiederete questi dettagli durante un incidente. Nota Se non viene fornita un'applicazione di conferenza preferita, ti AWS contatterà durante un incidente e ti fornirà un bridge Chime a cui unirti.	Team di candidatura app@example.com +61 2 3456 7890
Se il contatto principale non è disponibile durante un incidente, fornisci i contatti di riferimento e la tempistica nell'ordine di comunicazione preferito.	1. Dopo 10 minuti, se il contatto principale non risponde, contatta: John Smith - Supervisore delle applicazioni john.smith@example.com +61 2 3456 7890 2. Dopo 10 minuti, se John Smith non risponde, contatta: Jane Smith - Responsabile delle operazioni jane.smith@example.com +61 2 3456 7890
AWS comunica gli aggiornamenti tramite il caso di supporto a intervalli regolari durante l'incidente. Esistono altri contatti che dovrebbero ricevere questi aggiornamenti?	john.smith@example.com, jane.smith@example.com

Matrice di allarme

Fornisci le seguenti informazioni per identificare il set di allarmi che attiveranno il rilevamento e la risposta AWS agli incidenti per creare incidenti per conto del tuo carico di lavoro. Una volta che i tecnici di AWS Incident Detection and Response avranno esaminato gli allarmi, verranno fornite ulteriori fasi di onboarding.

AWSCriteri di allarme critici per il rilevamento e la risposta agli incidenti:

AWSGli allarmi di rilevamento e risposta agli incidenti devono entrare nello stato «Allarme» solo in caso di impatto aziendale significativo sul carico di lavoro monitorato (perdita di entrate/peggioramento dell'esperienza del cliente) che richiede l'attenzione immediata dell'operatore.
AWSGli allarmi di rilevamento e risposta agli incidenti devono inoltre coinvolgere i resolver per il carico di lavoro contemporaneamente o prima dell'attivazione. AWS Gli Incident Manager collaborano con i vostri resolver nel processo di mitigazione e non fungono da soccorritori di prima linea che poi passano a voi.
AWSLe soglie di allarme di rilevamento e risposta agli incidenti devono essere impostate su una soglia e una durata appropriate, in modo che ogni volta che scatta un allarme sia necessaria un'indagine. Se un allarme si sposta tra lo stato «Allarme» e «OK», si verifica un impatto sufficiente a giustificare la risposta e l'attenzione dell'operatore.

AWSPolitica di rilevamento e risposta agli incidenti per le violazioni dei criteri:

Questi criteri possono essere valutati solo in case-by-case base al verificarsi degli eventi. Il team di gestione degli incidenti collabora con i vostri account manager tecnici (TAMs) per regolare gli allarmi e, in rari casi, disabilitare il monitoraggio se si sospetta che gli allarmi dei clienti non rispettino questi criteri e coinvolge regolarmente il team di gestione degli incidenti inutilmente.

Importante

Quando fornisci gli indirizzi di contatto, fornisci un gruppo di indirizzi e-mail di distribuzione, in modo da poter controllare le aggiunte e le eliminazioni dei destinatari senza dover aggiornare i runbook.

Fornisci il numero di telefono di contatto del team di ingegneria dell'affidabilità del sito (SRE) se desideri che il team di rilevamento e risposta AWS agli incidenti li chiami dopo aver inviato un'e-mail di coinvolgimento iniziale.

Tabella delle matrici di allarme
Nome della metrica/ARN/Threshold	Descrizione	Note	Azioni richieste
Volume del carico di lavoro/ `CW Alarm ARN` / CallCount < 100000 per 5 punti dati entro 5 minuti, considera i dati mancanti come mancanti	Questa metrica rappresenta il numero di richieste in entrata che arrivano al carico di lavoro, misurato a livello di Application Load Balancer. Questo allarme è importante perché un calo significativo delle richieste in entrata può indicare problemi con la connettività di rete upstream o problemi con la nostra DNS implementazione che impediscono agli utenti di accedere al carico di lavoro.	L'allarme è entrato nello stato «Allarme» 10 volte nell'ultima settimana. Questo allarme è a rischio di falsi positivi. È prevista la revisione della soglia. Problemi? No o Sì (se No, lascia vuoto): questo allarme si attiva frequentemente durante l'esecuzione di un particolare processo in batch. Risolutori: tecnici addetti all'affidabilità del sito	Coinvolgete il team di Site Reliability Engineering inviando un'e-mail a `SRE@xyz.com` Crea un caso AWS Premium Support per i nostri servizi ELB e Route 53. Se è necessaria IMMEDIATE un'azione: seleziona Memoria/spazio EC2 libero su disco e informa il `XYZ` team tramite e-mail di riavviare l'istanza o esegui un log flush. (se non è necessaria un'azione immediata, lascia vuoto)
Latenza delle richieste del carico di lavoro/ `CW Alarm ARN` / p90 Latenza > 100 ms per 5 punti dati entro 5 minuti, considera i dati mancanti come mancanti	Questa metrica rappresenta la latenza p90 per le richieste che devono essere soddisfatte dal carico di lavoro. HTTP Questo allarme rappresenta la latenza (misura importante dell'esperienza del cliente per il sito Web).	L'allarme è entrato nello stato «Allarme» 0 volte nell'ultima settimana. Problemi? No o Sì (se No, lascia vuoto): questo allarme si attiva frequentemente durante l'esecuzione di un particolare processo in batch. Risolutori: tecnici addetti all'affidabilità del sito	Coinvolgete il team di Site Reliability Engineering inviando un'e-mail a `SRE@xyz.com` Crea un caso AWS Premium Support per i nostri ECW servizi. RDS Se è necessaria IMMEDIATE un'azione: controlla Memoria/spazio EC2 libero su disco e informa il `XYZ` team tramite e-mail di riavviare l'istanza, oppure esegui un log flush. (se non è necessaria un'azione immediata, lascia vuoto)
Disponibilità della richiesta del carico di lavoro/ `CW Alarm ARN` / Disponibilità < 95% per 5 punti dati entro 5 minuti, considera i dati mancanti come mancanti.	Questa metrica rappresenta la disponibilità delle HTTP richieste che devono essere soddisfatte dal carico di lavoro. (numero di HTTP 200/ numero di richieste) per periodo. Questo allarme rappresenta la disponibilità del carico di lavoro.	L'allarme è entrato nello stato «Allarme» 0 volte nell'ultima settimana. Problemi? No o Sì (se No, lascia vuoto): questo allarme si attiva frequentemente durante l'esecuzione di un particolare processo in batch. Risolutori: tecnici addetti all'affidabilità del sito	Coinvolgete il team di Site Reliability Engineering inviando un'e-mail a `SRE@xyz.com` Crea un caso AWS Premium Support per i nostri servizi ELB e Route 53. Se è necessaria IMMEDIATE un'azione: seleziona Memoria/spazio EC2 libero su disco e informa il `XYZ` team tramite e-mail di riavviare l'istanza o esegui un log flush. (se non è necessaria un'azione immediata, lascia vuoto)

Esempio di New Relic Alarm
Test di integrazione dall'inizio alla fine/ `CW Alarm ARN` / Percentuale di errore del 3% per metriche di 1 minuto su una durata di 3 minuti, considera i dati mancanti come mancanti Identificatore del carico di lavoro: Flusso di lavoro end-to-end del test, AWS regione: EAST US-1, ID AWS account: 012345678910	Questa metrica verifica se una richiesta può attraversare ogni livello del carico di lavoro. Se questo test fallisce, rappresenta un errore critico nell'elaborazione delle transazioni commerciali. Questo allarme rappresenta la capacità di elaborare transazioni commerciali per il carico di lavoro.	L'allarme è entrato nello stato «Allarme» 0 volte nell'ultima settimana. Problemi? No o Sì (se No, lascia vuoto): questo allarme si attiva frequentemente durante l'esecuzione di un particolare processo in batch. Risolutori: tecnici addetti all'affidabilità del sito	Coinvolgete il team di Site Reliability Engineering inviando un'e-mail a `SRE@xyz.com` Crea un caso AWS Premium Support per i nostri ECS servizi e DynamoDB. Se è necessaria IMMEDIATE un'azione: seleziona Memoria/spazio EC2 libero su disco e informa il `XYZ` team tramite e-mail di riavviare l'istanza, oppure esegui un log flush. (se non è necessaria un'azione immediata, lascia vuoto)

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Onboarding

Individuazione dei carichi di lavoro

Questionari di onboarding del carico di lavoro e inserimento degli allarmi in Incident Detection and Response

Questionario sull'onboarding del carico di lavoro - Domande generali

Questionario di onboarding sul carico di lavoro - Domande sull'architettura

Nota

Nota

Nota

Nota

Nota

Nota

Questionario di onboarding sul carico di lavoro - Domande sugli eventi di servizio AWS

Nota

Questionario sull'ingestione degli allarmi

Nota

Matrice di allarme

Importante