Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Questionari di onboarding del carico di lavoro e inserimento degli allarmi in Incident Detection and Response
Questa pagina fornisce i questionari da completare durante l'onboarding di un carico di lavoro in AWS Incident Detection and Response e quando si configurano gli allarmi da inserire nel servizio. Il questionario di onboarding del carico di lavoro contiene informazioni generali sul carico di lavoro, sui dettagli dell'architettura e sui contatti per la risposta agli incidenti. Nel questionario di inserimento degli allarmi, specifichi gli allarmi critici che dovrebbero innescare la creazione di incidenti in Incident Detection and Response per il tuo carico di lavoro, oltre a informazioni di runbook su chi contattare e quali azioni intraprendere. La corretta compilazione di questi questionari è un passaggio fondamentale nella configurazione dei processi di monitoraggio e risposta agli incidenti per i carichi di lavoro. AWS
Scarica il questionario di onboarding sul carico di lavoro
Scarica il questionario sull'ingestione degli allarmi.
Questionario sull'onboarding del carico di lavoro - Domande generali
Domanda | Risposta di esempio |
---|---|
Nome dell'azienda | Amazon Inc. |
Nome di questo carico di lavoro (includi eventuali abbreviazioni) | Operazioni di vendita al dettaglio su Amazon (ARO) |
Utente finale principale e funzione di questo carico di lavoro. | Questo carico di lavoro è un'applicazione di e-commerce che consente agli utenti finali di acquistare vari articoli. Questo carico di lavoro è il principale generatore di entrate per la nostra attività. |
Requisiti di conformità e/o normativi applicabili per questo carico di lavoro e qualsiasi azione richiesta AWS dopo un incidente. | Il carico di lavoro riguarda le cartelle cliniche dei pazienti, che devono essere mantenute protette e riservate. |
Questionario di onboarding sul carico di lavoro - Domande sull'architettura
Domanda | Risposta di esempio |
---|---|
Un elenco di tag di AWS risorsa utilizzati per definire le risorse che fanno parte di questo carico di lavoro. AWS utilizza questi tag per identificare le risorse di questo carico di lavoro e velocizzare il supporto durante gli incidenti. NotaI tag rispettano la distinzione tra maiuscole e minuscole. Se fornisci più tag, tutte le risorse utilizzate da questo carico di lavoro devono avere gli stessi tag. |
appName: Optimax ambiente: Produzione |
Un elenco dei AWS servizi utilizzati da questo carico di lavoro e degli AWS account e delle regioni in cui si trovano. NotaCrea una nuova riga per ogni servizio. |
Route 53: indirizza il traffico Internet versoALB. Conto: 123456789101 Regione: US- -1, US- -2 EAST WEST |
Un elenco dei AWS servizi utilizzati da questo carico di lavoro, con l' AWS account e le aree geografiche in cui si trovano. NotaCrea una nuova riga per ogni servizio. |
ALB: indirizza il traffico in entrata verso un gruppo target di ECS contenitori. Conto: 123456789101 Regione: N/A |
Un elenco dei AWS servizi utilizzati da questo carico di lavoro e degli AWS account e delle aree in cui si trovano. NotaCrea una nuova riga per ogni servizio. |
ECS: infrastruttura di calcolo per il parco logico aziendale principale. Responsabile della gestione delle richieste degli utenti in arrivo e dell'invio di query al livello di persistenza. Conto: 123456789101 Regione: US- -1 EAST |
Un elenco dei AWS servizi utilizzati da questo carico di lavoro e degli AWS account e delle regioni in cui si trovano. NotaCrea una nuova riga per ogni servizio. |
RDS: Il cluster Amazon Aurora archivia i dati degli utenti a cui si accede tramite il livello di logica ECS aziendale. Account: 123456789101 Regione: US- -1 EAST |
Un elenco dei AWS servizi utilizzati da questo carico di lavoro e degli AWS account e delle regioni in cui si trovano. NotaCrea una nuova riga per ogni servizio. |
S3: memorizza le risorse statiche del sito Web. Conto: 123456789101 Regione: N/A |
Descrivi in dettaglio eventuali componenti upstream/downstream non integrati che potrebbero influire su questo carico di lavoro in caso di interruzione. | Microservizio di autenticazione: impedirà agli utenti di caricare le proprie cartelle cliniche poiché non saranno autenticate. |
Esistono componenti locali o non per questo carico di lavoro?AWS In caso affermativo, quali sono e quali funzioni vengono eseguite? | Tutto il traffico in entrata e in uscita da Internet AWS viene instradato tramite il nostro servizio proxy locale. |
Fornisci dettagli su eventuali piani di failover/disaster recovery manuali o automatizzati a livello di zona di disponibilità e regionale. | Standby a caldo. Failover automatico verso WEST US-2 durante un calo prolungato della percentuale di successo. |
Questionario di onboarding sul carico di lavoro - Domande sugli eventi di servizio AWS
Domanda | Risposta di esempio |
---|---|
Fornite i dati di contatto (nome/e-mail/telefono) del team interno di gestione degli incidenti gravi e delle crisi informatiche della vostra azienda. | Team di gestione degli incidenti principali mim@example.com +61 2 3456 7890 |
Fornite i dettagli di qualsiasi ponte statico di gestione degli incidenti/crisi stabilito dalla vostra azienda. Se utilizzate bridge non statici, specificate l'applicazione preferita e AWS richiederete questi dettagli durante un incidente. NotaSe non ne viene fornito uno, AWS ti contatterà durante un incidente e ti fornirà un bridge Chime a cui unirti. |
Amazon Chime https://chime.aws/1234567890 |
Questionario sull'ingestione degli allarmi
Domanda | Risposta di esempio |
---|---|
AWS coinvolgerà i contatti del carico di lavoro tramite il AWS Support Case. Chi è il contatto principale quando si attiva un allarme per questo carico di lavoro? Specificate la vostra applicazione di conferenza preferita e AWS richiederete questi dettagli durante un incidente. NotaSe non viene fornita un'applicazione di conferenza preferita, ti AWS contatterà durante un incidente e ti fornirà un bridge Chime a cui unirti. |
Team di candidatura app@example.com +61 2 3456 7890 |
Se il contatto principale non è disponibile durante un incidente, fornisci i contatti di riferimento e la tempistica nell'ordine di comunicazione preferito. |
1. Dopo 10 minuti, se il contatto principale non risponde, contatta: John Smith - Supervisore delle applicazioni john.smith@example.com +61 2 3456 7890 2. Dopo 10 minuti, se John Smith non risponde, contatta: Jane Smith - Responsabile delle operazioni jane.smith@example.com +61 2 3456 7890 |
AWS comunica gli aggiornamenti tramite il caso di supporto a intervalli regolari durante l'incidente. Esistono altri contatti che dovrebbero ricevere questi aggiornamenti? |
john.smith@example.com, jane.smith@example.com |
Matrice di allarme
Fornisci le seguenti informazioni per identificare il set di allarmi che attiveranno il rilevamento e la risposta AWS agli incidenti per creare incidenti per conto del tuo carico di lavoro. Una volta che i tecnici di AWS Incident Detection and Response avranno esaminato gli allarmi, verranno fornite ulteriori fasi di onboarding.
AWSCriteri di allarme critici per il rilevamento e la risposta agli incidenti:
AWSGli allarmi di rilevamento e risposta agli incidenti devono entrare nello stato «Allarme» solo in caso di impatto aziendale significativo sul carico di lavoro monitorato (perdita di entrate/peggioramento dell'esperienza del cliente) che richiede l'attenzione immediata dell'operatore.
AWSGli allarmi di rilevamento e risposta agli incidenti devono inoltre coinvolgere i resolver per il carico di lavoro contemporaneamente o prima dell'attivazione. AWS Gli Incident Manager collaborano con i vostri resolver nel processo di mitigazione e non fungono da soccorritori di prima linea che poi passano a voi.
AWSLe soglie di allarme di rilevamento e risposta agli incidenti devono essere impostate su una soglia e una durata appropriate, in modo che ogni volta che scatta un allarme sia necessaria un'indagine. Se un allarme si sposta tra lo stato «Allarme» e «OK», si verifica un impatto sufficiente a giustificare la risposta e l'attenzione dell'operatore.
AWSPolitica di rilevamento e risposta agli incidenti per le violazioni dei criteri:
Questi criteri possono essere valutati solo in case-by-case base al verificarsi degli eventi. Il team di gestione degli incidenti collabora con i vostri account manager tecnici (TAMs) per regolare gli allarmi e, in rari casi, disabilitare il monitoraggio se si sospetta che gli allarmi dei clienti non rispettino questi criteri e coinvolge regolarmente il team di gestione degli incidenti inutilmente.
Importante
Quando fornisci gli indirizzi di contatto, fornisci un gruppo di indirizzi e-mail di distribuzione, in modo da poter controllare le aggiunte e le eliminazioni dei destinatari senza dover aggiornare i runbook.
Fornisci il numero di telefono di contatto del team di ingegneria dell'affidabilità del sito (SRE) se desideri che il team di rilevamento e risposta AWS agli incidenti li chiami dopo aver inviato un'e-mail di coinvolgimento iniziale.
Nome della metrica/ARN/Threshold | Descrizione | Note | Azioni richieste |
---|---|---|---|
Volume del carico di lavoro/
CallCount < 100000 per 5 punti dati entro 5 minuti, considera i dati mancanti come mancanti |
Questa metrica rappresenta il numero di richieste in entrata che arrivano al carico di lavoro, misurato a livello di Application Load Balancer. Questo allarme è importante perché un calo significativo delle richieste in entrata può indicare problemi con la connettività di rete upstream o problemi con la nostra DNS implementazione che impediscono agli utenti di accedere al carico di lavoro. |
L'allarme è entrato nello stato «Allarme» 10 volte nell'ultima settimana. Questo allarme è a rischio di falsi positivi. È prevista la revisione della soglia. Problemi? No o Sì (se No, lascia vuoto): questo allarme si attiva frequentemente durante l'esecuzione di un particolare processo in batch. Risolutori: tecnici addetti all'affidabilità del sito |
Coinvolgete il team di Site Reliability Engineering inviando un'e-mail a Crea un caso AWS Premium Support per i nostri servizi ELB e Route 53. Se è necessaria IMMEDIATE un'azione: controlla Memoria/spazio EC2 libero su disco e informa il |
Latenza delle richieste del carico di lavoro/
p90 Latenza > 100 ms per 5 punti dati entro 5 minuti, considera i dati mancanti come mancanti |
Questa metrica rappresenta la latenza p90 per le richieste che devono essere soddisfatte dal carico di lavoro. HTTP Questo allarme rappresenta la latenza (misura importante dell'esperienza del cliente per il sito Web). |
L'allarme è entrato nello stato «Allarme» 0 volte nell'ultima settimana. Problemi? No o Sì (se No, lascia vuoto): questo allarme si attiva frequentemente durante l'esecuzione di un particolare processo in batch. Risolutori: tecnici addetti all'affidabilità del sito |
Coinvolgete il team di Site Reliability Engineering inviando un'e-mail a Crea un caso AWS Premium Support per i nostri ECW servizi. RDS Se è necessaria IMMEDIATE un'azione: controlla Memoria/spazio EC2 libero su disco e informa il |
Disponibilità della richiesta del carico di lavoro/
Disponibilità < 95% per 5 punti dati entro 5 minuti, considera i dati mancanti come mancanti. |
Questa metrica rappresenta la disponibilità delle HTTP richieste che devono essere soddisfatte dal carico di lavoro. (numero di HTTP 200/ numero di richieste) per periodo. Questo allarme rappresenta la disponibilità del carico di lavoro. |
L'allarme è entrato nello stato «Allarme» 0 volte nell'ultima settimana. Problemi? No o Sì (se No, lascia vuoto): questo allarme si attiva frequentemente durante l'esecuzione di un particolare processo in batch. Risolutori: tecnici addetti all'affidabilità del sito |
Coinvolgete il team di Site Reliability Engineering inviando un'e-mail a Crea un caso AWS Premium Support per i nostri servizi ELB e Route 53. Se è necessaria IMMEDIATE un'azione: controlla Memoria/spazio EC2 libero su disco e informa il |
| |||
Esempio di New Relic Alarm | |||
Test di integrazione dall'inizio alla fine/
Percentuale di errore del 3% per metriche di 1 minuto su una durata di 3 minuti, considera i dati mancanti come mancanti Identificatore del carico di lavoro: Flusso di lavoro end-to-end del test, AWS regione: EAST US-1, ID AWS account: 012345678910 |
Questa metrica verifica se una richiesta può attraversare ogni livello del carico di lavoro. Se questo test fallisce, rappresenta un errore critico nell'elaborazione delle transazioni commerciali. Questo allarme rappresenta la capacità di elaborare transazioni commerciali per il carico di lavoro. |
L'allarme è entrato nello stato «Allarme» 0 volte nell'ultima settimana. Problemi? No o Sì (se No, lascia vuoto): questo allarme si attiva frequentemente durante l'esecuzione di un particolare processo in batch. Risolutori: tecnici addetti all'affidabilità del sito |
Coinvolgete il team di Site Reliability Engineering inviando un'e-mail a Crea un caso AWS Premium Support per i nostri ECS servizi e DynamoDB. Se è necessaria IMMEDIATE un'azione: controlla Memoria/spazio EC2 libero su disco e informa il |