事件检测和响应中的工作负载入和警报摄取问卷 - AWS事件检测和响应用户指南

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

事件检测和响应中的工作负载入和警报摄取问卷

本页提供了在将工作负载加入AWS事件检测和响应以及配置警报以接收到服务时需要填写的调查问卷。工作负载入职调查表涵盖有关您的工作负载、其架构详细信息以及事件响应联系人的一般信息。在警报摄取调查问卷中,您可以在 “事件检测和响应” 中为您的工作负载指定应触发事件创建的关键警报,以及有关应联系谁以及应采取哪些措施的运行手册信息。正确填写这些调查问卷是为您的 AWS 工作负载设置监控和事件响应流程的关键步骤。

下载工作负载入职调查表

下载警报摄取问卷。

工作负载入职调查表-一般问题

一般问题
问题 响应示例
企业名称

Amazon Inc.

此工作负载的名称(包括任何缩写)

亚马逊零售业务 (ARO)

主要最终用户和该工作负载的功能。

此工作负载是一个电子商务应用程序,允许最终用户购买各种物品。这种工作量是我们业务的主要收入来源。

此工作负载的适用合规和/或监管要求以及事件发生 AWS 后需要采取的任何行动。

工作量涉及患者健康记录,这些记录必须安全保密。

工作负载入职问卷-架构问题

架构问题
问题 响应示例

AWS 资源标签列表,用于定义属于此工作负载的资源。 AWS 使用这些标签来标识此工作负载的资源,以便在事件发生期间加快支持速度。

注意

标签区分大小写。如果您提供多个标签,则此工作负载使用的所有资源都必须具有相同的标签。

appName: Optimax

环境:生产

此工作负载使用的 AWS 服务列表以及它们所在的 AWS 账户和区域。

注意

为每项服务创建一个新行。

路线 53:将互联网流量路由到ALB.

账户:123456789101

地区:美国-EAST 1,美国-WEST 2

此工作负载使用的 AWS 服务列表以及它们所在的 AWS 账户和区域。

注意

为每项服务创建一个新行。

ALB:将传入流量路由到目标ECS容器组。

账户:123456789101

地区:不适用

此工作负载使用的 AWS 服务列表以及它们所在的 AWS 账户和区域。

注意

为每项服务创建一个新行。

ECS: 主业务逻辑队列的计算基础架构。负责处理传入的用户请求并向持久层进行查询。

账户:123456789101

地区:美国-EAST 1

此工作负载使用的 AWS 服务列表以及它们所在的 AWS 账户和区域。

注意

为每项服务创建一个新行。

RDS:Amazon Aurora 集群存储由ECS业务逻辑层访问的用户数据。

账户:123456789101

地区:美国-EAST 1

此工作负载使用的 AWS 服务列表以及它们所在的 AWS 账户和区域。

注意

为每项服务创建一个新行。

S3:存储网站静态资产。

账户:123456789101

地区:不适用

详细说明任何未上线/下游组件,这些组件在出现中断时可能会影响此工作负载。 身份验证微服务:将阻止用户加载健康记录,因为他们将未经身份验证。
此工作负载是否有任何本地或非AWS 组件? 如果是,它们是什么,执行了哪些功能? 所有基于互联网的流量进出 AWS 均通过我们的本地代理服务进行路由。
提供可用区和区域级别的任何手动或自动故障转移/灾难恢复计划的详细信息。 热待机。成功率持续下降期间自动故障转移到 US WEST -2。

工作负载入职调查表- AWS 服务事件问题

AWS 服务活动问题
问题 响应示例
提供贵公司内部重大事件/IT 危机管理团队的联系方式(姓名/电子邮件/电话)。

重大事件管理小组

mim@example.com

+61 2 3456 7890

提供贵公司建立的任何静态事件/危机管理桥梁的详细信息。如果您使用非静态网桥,请指定您的首选应用程序,并 AWS 将在事件发生期间请求这些详细信息。

注意

如果没有提供,则 AWS 会在事件发生时伸出援手,并提供一座 Chime 桥供你加入。

Amazon Chime

https://chime.aws/1234567890

警报摄取问卷

运行手册问题
问题 响应示例

AWS 将通过 AWS Support 案例吸引工作量联系人。当针对此工作负载触发警报时,谁是主要联系人?

指定您的首选会议应用程序,并 AWS 将在事件发生期间请求这些详细信息。

注意

如果未提供首选的会议应用程序,则 AWS 会在事件发生期间与您联系,并提供 Chime 桥接器供您加入。

应用小组

app@example.com

+61 2 3456 7890

如果事件发生期间主要联系人不可用,请按首选的沟通顺序提供上报联系人和时间表。

1. 10 分钟后,如果主要联系人没有回复,请联系:

约翰·史密斯-应用主管

john.smith@example.com

+61 2 3456 7890

2. 10 分钟后,如果约翰·史密斯没有回复,请联系:

简·史密斯——运营经理

jane.smith@example.com

+61 2 3456 7890

AWS 在整个事件中,定期通过支持案例传达最新信息。还有其他联系人应该收到这些更新吗?

john.smith@example.com,jane.smith@example.com

警报矩阵

提供以下信息以确定将使用AWS事件检测和响应来代表您的工作负载创建事件的警报集。AWS事件检测和响应部的工程师查看您的警报后,将提供额外的入职步骤。

AWS事件检测和响应关键警报标准

  • AWS事件检测和响应警报只有在监控工作量受到重大业务影响(收入损失/客户体验降低),需要操作员立即注意时才应进入 “警报” 状态。

  • AWS事件检测和响应警报还必须同时或在参与之前与您的处理人员联系以处理工作负载。 AWS 事件经理在缓解过程中与您的解决者合作,而不是充当第一线响应者,然后再上报给您。

  • AWS必须将事件检测和响应警报阈值设置为适当的阈值和持续时间,这样每当警报触发时,都必须进行调查。如果警报在 “警报” 和 “正常” 状态之间移动,则产生的冲击力足以引起操作员的响应和注意。

AWS违反标准的事件检测和响应政策

这些标准只能在事件发生时进行评估。 case-by-case如果怀疑客户警报不符合此标准,并且不必要地定期与事件管理团队接触,则事件管理团队会与您的技术客户经理(TAMs)合作调整警报,并在极少数情况下禁用监控。

重要

在提供联系人地址时提供群组通讯电子邮件地址,这样您就可以在不更新运行手册的情况下控制收件人的添加和删除。

如果您希望AWS事件检测和响应团队在发送初始参与电子邮件后给他们打电话,请提供您的站点可靠性工程 (SRE) 团队的联系电话。

警报矩阵表
指标名称/ ARN /阈值 描述 注意 请求的操作

工作负载量/

CW Alarm ARN /

CallCount 在 5 分钟内获得 5 个数据点 < 100000,将缺失的数据视为丢失

该指标表示进入工作负载的传入请求数,在 Application Load Balancer 级别进行衡量。

此警报很重要,因为传入请求的大量下降可能表明上游网络连接存在问题,或者我们的DNS实施存在问题,导致用户无法访问工作负载。

警报在上周已进入 “警报” 状态 10 次。此警报存在误报的风险。已计划进行阈值审查。

问题? “否” 或 “是”(如果为 “否”,则留空):在执行特定的批处理作业期间,此警报会频繁翻转。

解析人员:现场可靠性工程师

向以下地址发送电子邮件,与现场可靠性工程团队接触 SRE@xyz.com

为我们ELB和 Route 53 的AWS服务创建 Premimum Support 案例。

如果需要IMMEDIATE采取行动:选中 “EC2可用内存/磁盘空间” 并通知 XYZ 通过电子邮件分组重启实例,或者运行日志刷新。 (如果不需要立即采取行动,请留空)

工作负载请求延迟/

CW Alarm ARN /

p90 5 分钟内 5 个数据点的延迟 > 100 毫秒,将丢失的数据视为丢失

该指标表示工作负载要完成的HTTP请求的 p90 延迟。

此警报代表延迟(衡量网站客户体验的重要指标)。

上周,警报已进入 “警报” 状态 0 次。

问题? “否” 或 “是”(如果为 “否”,则留空):在执行特定的批处理作业期间,此警报会频繁翻转。

解析人员:现场可靠性工程师

向以下地址发送电子邮件,与现场可靠性工程团队接触 SRE@xyz.com

为我们的ECW和AWSRDS服务创建 Premimum Support 案例。

如果需要IMMEDIATE采取行动:选中 “EC2可用内存/磁盘空间” 并通知 XYZ 通过电子邮件分组重启实例,或者运行日志刷新。 (如果不需要立即采取行动,请留空)

工作负载请求可用性/

CW Alarm ARN /

5 分钟内 5 个数据点的可用性小于 95%,将缺失的数据视为丢失。

此指标表示工作负载所要完成的HTTP请求的可用性。(每期 HTTP 200 个请求数/# 个)。

此警报表示工作负载的可用性。

上周,警报已进入 “警报” 状态 0 次。

问题? “否” 或 “是”(如果为 “否”,则留空):在执行特定的批处理作业期间,此警报会频繁翻转。

解析人员:现场可靠性工程师

向以下地址发送电子邮件,与现场可靠性工程团队接触 SRE@xyz.com

为我们ELB和 Route 53 的AWS服务创建 Premimum Support 案例。

如果需要IMMEDIATE采取行动:选中 “EC2可用内存/磁盘空间” 并通知 XYZ 通过电子邮件分组重启实例,或者运行日志刷新。 (如果不需要立即采取行动,请留空)

 

新的遗物警报示例

端到端集成测试/

CW Alarm ARN /

在 3 分钟持续时间内,1 分钟指标的失败率为 3%,将缺失的数据视为丢失

工作负载标识符:端到端测试工作流程,AWS区域:美国-EAST 1,AWS账户 ID:012345678910

该指标用于测试请求是否可以遍历工作负载的每一层。如果此测试失败,则表示无法处理业务交易。

此警报表示能够处理工作负载的业务交易。

上周,警报已进入 “警报” 状态 0 次。

问题? “否” 或 “是”(如果为 “否”,则留空):在执行特定的批处理作业期间,此警报会频繁翻转。

解析人员:现场可靠性工程师

向以下地址发送电子邮件,与现场可靠性工程团队接触 SRE@xyz.com

为我们和 DynamoD AWS B 服务创建 Premimum Su ECS pport 案例。

如果需要IMMEDIATE采取行动:选中 “EC2可用内存/磁盘空间” 并通知 XYZ 通过电子邮件分组重启实例,或者运行日志刷新。 (如果不需要立即采取行动,请留空)