Questionários de integração da carga de trabalho e ingestão de alarmes em Detecção e Resposta a Incidentes - Guia do usuário do AWS Incident Detection and Response

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Questionários de integração da carga de trabalho e ingestão de alarmes em Detecção e Resposta a Incidentes

Esta página fornece os questionários que você precisa preencher ao integrar uma carga de trabalho ao AWS Incident Detection and Response e ao configurar alarmes a serem ingeridos no serviço. O questionário de integração da carga de trabalho abrange informações gerais sobre sua carga de trabalho, detalhes de sua arquitetura e contatos para resposta a incidentes. No questionário de ingestão de alarmes, você especifica os alarmes críticos que devem acionar a criação de incidentes em Detecção e Resposta a Incidentes para sua carga de trabalho, bem como informações sobre quem deve ser contatado e quais ações devem ser tomadas. O preenchimento adequado desses questionários é uma etapa fundamental na configuração dos processos de monitoramento e resposta a incidentes para suas AWS cargas de trabalho.

Baixe o questionário de integração da carga de trabalho.

Baixe o questionário de ingestão de alarmes.

Questionário de integração da carga de trabalho - Perguntas gerais

Perguntas gerais
Pergunta Exemplo de resposta
Nome da empresa

Amazon Inc.

Nome dessa carga de trabalho (inclua quaisquer abreviações)

Operações de varejo da Amazon (ARO)

Usuário final primário e a função dessa carga de trabalho.

Essa carga de trabalho é um aplicativo de comércio eletrônico que permite que os usuários finais comprem vários itens. Essa carga de trabalho é o principal gerador de receita para nossos negócios.

Requisitos regulatórios e/ou de conformidade aplicáveis para essa carga de trabalho e quaisquer ações necessárias AWS após um incidente.

A carga de trabalho trata dos registros de saúde do paciente, que devem ser mantidos em segurança e confidencialidade.

Questionário de integração da carga de trabalho - Perguntas sobre arquitetura

Perguntas sobre arquitetura
Pergunta Exemplo de resposta

Uma lista de tags de AWS recursos usadas para definir recursos que fazem parte dessa carga de trabalho. AWS usa essas tags para identificar os recursos dessa carga de trabalho para agilizar o suporte durante incidentes.

nota

As tags diferenciam letras maiúsculas de minúsculas. Se você fornecer várias tags, todos os recursos usados por essa carga de trabalho deverão ter as mesmas tags.

Nome do aplicativo: Optimax

ambiente: Produção

Uma lista dos AWS serviços utilizados por essa carga de trabalho e a AWS conta e as regiões em que eles estão.

nota

Crie uma nova linha para cada serviço.

Rota 53: encaminha o tráfego da Internet para o ALB.

Conta: 123456789101

Região: US-EAST-1, US-WEST-2

Uma lista dos AWS serviços utilizados por essa carga de trabalho e a AWS conta e as regiões em que eles estão.

nota

Crie uma nova linha para cada serviço.

ALB: encaminha o tráfego de entrada para um grupo-alvo de contêineres do ECS.

Conta: 123456789101

Região: N/A

Uma lista dos AWS serviços utilizados por essa carga de trabalho e a AWS conta e as regiões em que eles estão.

nota

Crie uma nova linha para cada serviço.

ECS: infraestrutura de computação para a principal frota lógica de negócios. Responsável por lidar com as solicitações recebidas do usuário e fazer consultas à camada de persistência.

Conta: 123456789101

Região: US-EAST-1

Uma lista dos AWS serviços utilizados por essa carga de trabalho e a AWS conta e as regiões em que eles estão.

nota

Crie uma nova linha para cada serviço.

RDS: o cluster Amazon Aurora armazena dados do usuário acessados pela camada lógica de negócios do ECS.

Conta: 123456789101

Região: US-EAST-1

Uma lista dos AWS serviços utilizados por essa carga de trabalho e a AWS conta e as regiões em que eles estão.

nota

Crie uma nova linha para cada serviço.

S3: Armazena ativos estáticos do site.

Conta: 123456789101

Região: N/A

Detalhe todos os componentes upstream/downstream que não estão sendo integrados e que podem afetar essa carga de trabalho em caso de interrupção. Microsserviço de autenticação: impedirá que os usuários carreguem seus registros de saúde, pois eles não serão autenticados.
Há algum AWS componente local ou não para essa carga de trabalho? Em caso afirmativo, quais são e quais funções são executadas? Todo o tráfego de entrada/saída baseado na Internet AWS é roteado por meio de nosso serviço de proxy local.
Forneça detalhes de qualquer plano manual ou automatizado de failover/recuperação de desastres na Zona de Disponibilidade e em nível regional. Espera quente. Failover automatizado para o US-WEST-2 durante uma queda sustentada na taxa de sucesso.

Questionário de integração da carga de trabalho - AWS Perguntas sobre eventos de serviço

AWS Perguntas sobre eventos de serviço
Pergunta Exemplo de resposta
Forneça os detalhes de contato (equipe de gerenciamento de name/email/phone) of your company's internal major incident/IT crises).

Equipe de gerenciamento de incidentes graves

mim@example.com

+61 2 3456 7890

Forneça detalhes de qualquer ponte estática de gerenciamento de incidentes/crises estabelecida pela sua empresa. Se você utilizar pontes não estáticas, especifique sua aplicação preferida e AWS solicitará esses detalhes durante um incidente.

nota

Se uma não for fornecida, AWS entrará em contato durante um incidente e fornecerá uma ponte Chime para você entrar.

Amazon Chime

https://chime.aws/1234567890

Questionário de ingestão de alarmes

Perguntas do Runbook
Pergunta Exemplo de resposta

AWS envolverá contatos de carga de trabalho por meio do Support Case. Quem é o contato principal quando um alarme é acionado para essa carga de trabalho?

Especifique seu aplicativo de conferência preferido e AWS solicitará esses detalhes durante um incidente.

nota

Se um aplicativo de conferência preferencial não for fornecido, AWS entrará em contato durante um incidente e fornecerá uma ponte Chime para você participar.

Equipe de aplicação

app@example.com

+61 2 3456 7890

Se o contato principal não estiver disponível durante um incidente, forneça os contatos de escalonamento e o cronograma na ordem de comunicação preferida.

1. Após 10 minutos, se não houver resposta do contato principal, entre em contato com:

John Smith - Supervisor de aplicativos

john.smith@example.com

+61 2 3456 7890

2. Após 10 minutos, se não houver resposta de John Smith, entre em contato com:

Jane Smith - Gerente de operações

jane.smith@example.com

+61 2 3456 7890

AWS comunica atualizações por meio do caso de suporte em intervalos regulares durante todo o incidente. Há contatos adicionais que devem receber essas atualizações?

john.smith@example.com, jane.smith@example.com

Matriz de alarme

Forneça as seguintes informações para identificar o conjunto de alarmes que envolverá o AWS Incident Detection and Response para criar incidentes em nome da sua carga de trabalho. Depois que os engenheiros da AWS Incident Detection and Response analisarem seus alarmes, etapas adicionais de integração serão fornecidas.

Critérios críticos de detecção e resposta a incidentes da AWS para alarmes:

  • Os alarmes de detecção e resposta a incidentes da AWS só devem entrar no estado de “Alarme” se houver um impacto comercial significativo na carga de trabalho monitorada (perda de receita/degradação da experiência do cliente) que exija atenção imediata do operador.

  • Os alarmes de detecção e resposta a incidentes da AWS também devem envolver seus resolvedores para a carga de trabalho ao mesmo tempo ou antes do engajamento. AWS Os gerentes de incidentes colaboram com seus solucionadores no processo de mitigação e não atuam como socorristas de primeira linha, que depois recorrem a você.

  • Os limites de alarme de detecção e resposta de incidentes da AWS devem ser definidos com um limite e uma duração apropriados para que, sempre que um alarme for acionado, uma investigação ocorra. Se um alarme estiver se movendo entre o estado “Alarme” e “OK”, um impacto suficiente está ocorrendo para garantir a resposta e a atenção do operador.

Política de detecção e resposta a incidentes da AWS para violações de critérios:

Esses critérios só podem ser avaliados case-by-case com base na ocorrência dos eventos. A equipe de gerenciamento de incidentes trabalha com seus gerentes técnicos de contas (TAMs) para ajustar os alarmes e, em casos raros, desativar o monitoramento se houver suspeita de que os alarmes do cliente não cumprem esses critérios e esteja contratando a equipe de gerenciamento de incidentes desnecessariamente a uma taxa regular.

Importante

Forneça endereços de e-mail de distribuição em grupo ao fornecer endereços de contato, para que você possa controlar as adições e exclusões de destinatários sem atualizações do runbook.

Forneça o número de telefone de contato da sua equipe de engenharia de confiabilidade do site (SRE) se quiser que a equipe de Detecção e Resposta de Incidentes da AWS ligue para eles depois de enviar um e-mail de engajamento inicial.

Tabela de matriz de alarme
Nome da métrica//ARN/Threshold Descrição Observações Ações solicitadas

Volume da carga de trabalho/

CW Alarm ARN /

CallCount < 100000 para 5 pontos de dados em 5 minutos, trate os dados ausentes como ausentes

Essa métrica representa o número de solicitações recebidas que chegam à carga de trabalho, medido no nível do Application Load Balancer.

Esse alarme é importante porque quedas significativas nas solicitações recebidas podem indicar problemas com a conectividade de rede upstream ou problemas com nossa implementação de DNS que fazem com que os usuários não consigam acessar a carga de trabalho.

O alarme entrou no estado “Alarme” 10 vezes na última semana. Esse alarme corre o risco de falsos positivos. A revisão dos limites está planejada.

Problemas? Não ou Sim (se Não, deixe em branco): Esse alarme é acionado com frequência durante a execução de um determinado trabalho em lote.

Resolvers: engenheiros de confiabilidade do site

Envolva a equipe de engenharia de confiabilidade do site enviando um e-mail para SRE@xyz.com

Crie um caso do AWS Premium Support para nossos serviços ELB e Route 53.

Se for necessária uma ação IMEDIATA: verifique Memória/espaço EC2 livre em disco e informe a XYZ equipe por e-mail para reiniciar a instância ou executar um log flush. (se a ação imediata não for necessária, deixe em branco)

Latência da solicitação de carga de trabalho/

CW Alarm ARN /

p90 Latência > 100 ms para 5 pontos de dados em 5 minutos, trate os dados perdidos como perdidos

Essa métrica representa a latência p90 para solicitações HTTP a serem atendidas pela carga de trabalho.

Esse alarme representa latência (medida importante da experiência do cliente no site).

O alarme entrou no estado “Alarme” 0 vezes na última semana.

Problemas? Não ou Sim (se Não, deixe em branco): Esse alarme é acionado com frequência durante a execução de um determinado trabalho em lote.

Resolvers: engenheiros de confiabilidade do site

Envolva a equipe de engenharia de confiabilidade do site enviando um e-mail para SRE@xyz.com

Crie um caso do AWS Premium Support para nossos serviços ECW e RDS.

Se for necessária uma ação IMEDIATA: verifique Memória/espaço EC2 livre em disco e informe a XYZ equipe por e-mail para reiniciar a instância ou executar um log flush. (se a ação imediata não for necessária, deixe em branco)

Disponibilidade da solicitação de carga de trabalho/

CW Alarm ARN /

Disponibilidade < 95% para 5 pontos de dados em 5 minutos, trate os dados perdidos como perdidos.

Essa métrica representa a disponibilidade de solicitações HTTP a serem atendidas pela carga de trabalho. (número de HTTP 200/nº de solicitações) por período.

Esse alarme representa a disponibilidade da carga de trabalho.

O alarme entrou no estado “Alarme” 0 vezes na última semana.

Problemas? Não ou Sim (se Não, deixe em branco): Esse alarme é acionado com frequência durante a execução de um determinado trabalho em lote.

Resolvers: engenheiros de confiabilidade do site

Envolva a equipe de engenharia de confiabilidade do site enviando um e-mail para SRE@xyz.com

Crie um caso do AWS Premium Support para nossos serviços ELB e Route 53.

Se for necessária uma ação IMEDIATA: verifique Memória/espaço EC2 livre em disco e informe a XYZ equipe por e-mail para reiniciar a instância ou executar um log flush. (se a ação imediata não for necessária, deixe em branco)

 

Exemplo de alarme New Relic

Teste de integração de ponta a ponta/

CW Alarm ARN /

Taxa de falha de 3% para métricas de 1 minuto em 3 minutos de duração, trate os dados perdidos como perdidos

Identificador de carga de trabalho: fluxo de trabalho de teste de ponta a ponta, região da AWS: US-EAST-1, ID da conta da AWS: 012345678910

Essa métrica testa se uma solicitação pode atravessar cada camada da carga de trabalho. Se esse teste falhar, isso representa uma falha crítica no processamento de transações comerciais.

Esse alarme representa a capacidade de processar transações comerciais para a carga de trabalho.

O alarme entrou no estado “Alarme” 0 vezes na última semana.

Problemas? Não ou Sim (se Não, deixe em branco): Esse alarme é acionado com frequência durante a execução de um determinado trabalho em lote.

Resolvers: engenheiros de confiabilidade do site

Envolva a equipe de engenharia de confiabilidade do site enviando um e-mail para SRE@xyz.com

Crie um caso de AWS Premium Support para nossos serviços ECS e DynamoDB.

Se for necessária uma ação IMEDIATA: verifique Memória/espaço EC2 livre em disco e informe a XYZ equipe por e-mail para reiniciar a instância ou executar um log flush. (se a ação imediata não for necessária, deixe em branco)