本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
常见故障排除步骤和最佳实践 ElastiCache
以下主题针对您在使用时可能遇到的错误和问题提供了疑难解答建议 ElastiCache。如果您发现某个问题未在此处列出,可以使用此页上的反馈按钮来报告。
如需更多故障排除建议和常见支持问题的答案,请访问AWS 知识中心
连接问题
如果您无法连接到 ElastiCache 缓存,请考虑以下方法之一:
使用TLS:如果您在尝试连接到 ElastiCache 终端节点时遇到连接挂起的情况,则可能没有在客户端TLS中使用。如果您使用的是 ElastiCache 无服务器,则传输中的加密始终处于启用状态。确保您的客户端使用TLS连接到缓存。详细了解如何连接到TLS已启用的缓存。
VPC: 只能从 a VPC 内部访问 ElastiCache 缓存。确保您访问缓存的EC2实例和缓存是在同一个实例中创建的VPC。 ElastiCache 或者,您必须在EC2实例VPC所在位置和创建缓存的VPC位置之间启用对等VPC互连。
安全组:ElastiCache 使用安全组来控制对缓存的访问权限。请考虑以下事项:
如果连接仍然很困难,持续连接问题请参阅了解其他步骤。
Valkey 或 Redis 客户端错误 OSS
ElastiCache 只有使用支持 Valkey 或 Redis OSS 集群模式协议的客户端才能访问无服务器。根据集群配置,可以在任一模式下从客户端访问自行设计的集群。
如果您在客户端中遇到错误,请考虑以下几点:
集群模式:如果您在使用SELECT
命令时遇到错误或CROSSLOT错误,则可能正在尝试使用不支持集群协议的 Valkey 或 Redis OSS 客户端访问已启用集群模式的缓存。 ElastiCache 无服务器仅支持支持 Valkey 或 Redis OSS 集群协议的客户端。如果您想在 “禁用集群模式” (CMD) 下使用 Valkey 或 RedisOSS,则必须设计自己的集群。 CROSSLOT错误:如果您遇到
ERR CROSSLOT Keys in request don't hash to the same slot
错误,则可能正在尝试访问不属于集群模式缓存中同一插槽的密钥。提醒一下, ElastiCache Serverless 始终在集群模式下运行。仅当涉及的所有密钥都在同一个哈希槽中时,才允许使用涉及多个密钥的多密钥操作、事务或 Lua 脚本。
有关配置 Valkey 或 Redis OSS 客户端的其他最佳实践,请查看此博客文章
解决 ElastiCache 无服务器中的高延迟问题
如果您的工作负载出现高延迟,则可以分析 CloudWatch SuccessfulReadRequestLatency
和SuccessfulWriteRequestLatency
指标,以检查延迟是否与 ElastiCache 无服务器有关。这些指标衡量的是 ElastiCache 无服务器内部的延迟,不包括客户端延迟以及您的客户端和 ElastiCache 无服务器端点之间的网络访问时间。
对客户端延迟进行故障排除
如果您注意到客户端的延迟时间有所增加,但没有相应的增加CloudWatch
SuccessfulReadRequestLatency
以及衡量服务器端延迟的SuccessfulWriteRequestLatency
指标,请考虑以下几点:
确保安全组允许访问端口 6379 和 6380: ElastiCache Serverless 使用 6379 端口作为主端点,6380 端口作为读取器端点。即使您的应用程序未使用从副本读取功能,某些客户端也会为每个新连接建立与两个端口的连接。如果您的安全组不允许对两个端口进行入站访问,则建立连接可能需要更长的时间。在此处详细了解如何设置端口访问权限。
服务器端延迟疑难解答
有些可变性和偶尔出现的峰值不应引起担忧。但是,如果Average
统计数据显示急剧增长并持续存在,则应查看和您的 Personal Health Dashboard 以获取更多信息。 AWS Health Dashboard 如有必要,可以考虑向提出支持案例 AWS Support。
考虑以下减少延迟的最佳实践和策略:
启用从副本读取:如果您的应用程序允许,我们建议在您的 Valkey 或 Redis OSS 客户端中启用 “从副本读取” 功能,以扩展读取并降低延迟。启用后, ElastiCache Serverless 会尝试将您的读取请求路由到与您的客户端位于同一可用区 (AZ) 的副本缓存节点,从而避免跨可用区网络延迟。请注意,在客户端中启用 “从副本读取” 功能表示您的应用程序接受数据的最终一致性。如果您在写入密钥后尝试读取,您的应用程序可能会在一段时间内收到较旧的数据。
确保您的应用程序部署在与缓存AZs相同的环境中:如果您的应用程序部署在与缓存AZs相同的环境中,您可能会观察到更高的客户端延迟。创建无服务器缓存时,您可以提供应用程序将从中访问缓存的子网, ElastiCache Serverless 将在这些子网中创建VPC终端节点。确保您的应用程序部署在同一位置AZs。否则,您的应用程序在访问缓存时可能会出现跨可用区跳跃,从而导致更高的客户端延迟。
重用连接:使用RESP协议通过TLS已启用的TCP连接发出ElastiCache 无服务器请求。启动连接(包括对连接进行身份验证,如果已配置)需要时间,因此第一个请求的延迟要高于典型延迟。通过已初始化的连接发出的请求可提供始终如一 ElastiCache的低延迟。因此,您应该考虑使用连接池或重复使用现有的 Valkey 或 Redis 连接。OSS
扩展速度:ElastiCache Serverless 会随着请求速率的增长而自动扩展。请求速率的突然大幅增加(快 ElastiCache 于 Serverless 的扩展速度)可能会在一段时间内导致延迟升高。 ElastiCache Serverless 通常可以快速提高其支持的请求速率,最多需要 10-12 分钟才能将请求速率提高一倍。
检查长时间运行的命令:某些 Valkey 或 Redis OSS 命令,包括 Lua 脚本或大型数据结构上的命令,可能会运行很长时间。要识别这些命令,请 ElastiCache 发布命令级指标。借助ElastiCache 无服务器,您可以使用这些
BasedECPUs
指标。受@@ 限制的请求:在 ElastiCache Serverless 中限制请求时,您的应用程序中的客户端延迟可能会增加。当请求在 ElastiCache Serverless 中受到限制时,您应该会看到无服务器指标有所增加。ThrottledRequests ElastiCache 请查看以下部分,了解受限请求的疑难解答。
密钥和请求的均匀分布:在 ElastiCache Valkey 和 Redis 中OSS,每个插槽的密钥或请求分布不均会导致热槽,从而导致延迟增加。 ElastiCache 在执行简单 ECPUs /命令的工作负载中,Serverless 在单个插槽上支持高达 30,000 ECPUs /秒(使用从副本读取时为 90,000 /秒)。SET GET我们建议您评估密钥和请求在各个插槽中的分布情况,并确保在您的请求速率超过此限制时实现均匀分配。
解决无服务器中的限制问题 ElastiCache
在面向服务的架构和分布式系统中,限制各种服务组件处理API呼叫的速率称为限制。这可以平滑峰值,控制组件吞吐量中的不匹配情况,并在出现意外操作事件时实现更可预测的恢复。 ElastiCache Serverless 专为这些类型的架构而设计,大多数 Valkey 或 Redis OSS 客户端都内置了针对受限请求的重试功能。一定程度上的限制对应用程序而言不一定是问题,但是持续限制数据工作流中对延迟敏感的部分可能会对用户体验产生负面影响,并会降低系统的整体效率。
当请求在 ElastiCache Serverless 中受到限制时,您应该会看到无服务器指标有所增加。ThrottledRequests ElastiCache 如果您注意到受限的请求数量很多,请考虑以下几点:
扩展速度:ElastiCache Serverless会随着您摄取更多数据或请求速率的增长而自动扩展。如果您的应用程序的扩展速度快于Serverless的扩展速度,则您的请求可能会受到限制,而 ElastiCache ElastiCache Serverless可以扩展以适应您的工作负载。 ElastiCache Serverless 通常可以快速增加存储大小,最多需要 10-12 分钟才能将缓存中的存储大小增加一倍。
密钥和请求的均匀分布:在 ElastiCache Valkey 或 Redis 中OSS,每个插槽的密钥或请求分布不均可能会导致出现热槽。在执行简单/命令的工作负载中,如果单个插槽的请求速率超过 30,000 ECPUs /秒,则热插槽可能会导致请求受限。SET GET
从副本读取:如果您的应用程序允许,请考虑使用 “从副本读取” 功能。大多数 Valkey 或 Redis OSS 客户端都可以配置为 “扩展读取”,将读取定向到副本节点。此功能使您能够扩展读取流量。此外, ElastiCache Serverless 会自动将副本请求中的读取路由到与您的应用程序位于同一可用区的节点,从而降低延迟。启用从副本读取后,对于使用简单 ECPUs /命令的工作负载,您可以在单个插槽上实现高达 90,000SET/GET秒的速度。