用于跟踪来自异步端点的指标的警报和日志 - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

用于跟踪来自异步端点的指标的警报和日志

您可以 SageMaker 使用 Amazon 进行监控 CloudWatch,Amazon 会收集原始数据并将其处理为可读的近乎实时的指标。借助 Amazon CloudWatch,您可以访问历史信息,更好地了解您的 Web 应用程序或服务的性能。有关亚马逊的更多信息 CloudWatch,请参阅什么是亚马逊 CloudWatch?

使用监控 CloudWatch

以下指标是 AWS/SageMaker 中的异步端点指标的详尽列表。如果为异步推理启用了端点,则只会发布下方列出的指标。这些指标包括(但不限于):

  • OverheadLatency

  • Invocations

  • InvocationsPerInstance

常见端点指标

这些指标与目前为实时端点发布的指标相同。有关亚马逊中其他指标的更多信息 CloudWatch,请参阅 SageMaker 使用亚马逊进行监控 CloudWatch

指标名称 描述 单位/统计数据

Invocation4XXErrors

模型返回 4xx HTTP 响应代码的请求数。对于每个 4xx 响应,发送 1;否则,发送 0。

单位:无

有效统计数据:Average、Sum

Invocation5XXErrors

模型返回 5xx HTTP 响应代码的 InvokeEndpoint 请求数。对于每个 5xx 响应,发送 1;否则,发送 0。

单位:无

有效统计数据:Average、Sum

ModelLatency

从中可以看出,模型做出响应所花费的时间间隔 SageMaker。此时间间隔包括发送请求以及从模型容器提取响应的本地通信时间,以及在容器中完成推理所用的时间。

单位:微秒

有效统计数据:Average、Sum、Min、Max、Sample Count

异步推理端点指标

这些指标针对为异步推理启用的端点发布。通过 EndpointName 维度发布以下指标:

指标名称 描述 单位/统计数据

ApproximateBacklogSize

某个端点的队列中,当前正在处理或尚未处理的项目数。

单位:计数

有效统计数据:Average、Max、Min

ApproximateBacklogSizePerInstance

队列中的项目数除以端点后台的实例数。此指标主要用于为启用了异步的端点设置应用程序自动缩放。

单位:计数

有效统计数据:Average、Max、Min

ApproximateAgeOfOldestRequest

队列中最早请求的龄期。

单位:秒

有效统计数据:Average、Max、Min

HasBacklogWithoutCapacity

当队列中有请求但端点后台没有实例时,此指标的值是 1。所有其他时候的值为 0。在队列中收到新请求时,您可以使用此指标从零个实例开始自动缩放端点。

单位:计数

有效统计数据:Average

通过 EndpointNameVariantName 维度发布以下指标:

指标名称 描述 单位/统计数据

RequestDownloadFailures

由于从 Amazon S3 下载请求时现问题,从而导致推理失败时。

单位:计数

有效统计数据:Sum

ResponseUploadFailures

由于将响应上传到 Amazon S3 出现问题,从而导致推理失败时。

单位:计数

有效统计数据:Sum

NotificationFailures

在出现问题时发布通知。

单位:计数

有效统计数据:Sum

RequestDownloadLatency

下载请求负载的总时间。

单位:微秒

有效统计数据:Average、Sum、Min、Max、Sample Count

ResponseUploadLatency

上传响应负载的总时间。

单位:微秒

有效统计数据:Average、Sum、Min、Max、Sample Count

ExpiredRequests

队列中因达到指定请求而失败的请求数TTL。

单位:计数

有效统计数据:Sum

InvocationFailures

调用由于任何原因而失败时。

单位:计数

有效统计数据:Sum

InvocationsProcesssed

端点处理的异步调用数量。

单位:计数

有效统计数据:Sum

TimeInBacklog

请求在得到处理之前排队的总时间。这不包括实际处理时间(即下载时间、上传时间、模型延迟)。

单位:毫秒

有效统计数据:Average、Sum、Min、Max、Sample Count

TotalProcessingTime

收到推理请求的时间截止 SageMaker 到请求处理完毕的时间。这包括积压时间以及上传和发送回复通知(如果有)的时间。

单位:毫秒

有效统计数据:Average、Sum、Min、Max、Sample Count

Amazon SageMaker 异步推理还包括主机级指标。有关主机级指标的信息,请参阅SageMaker 任务和端点指标。

日志

除了在您的账户中发布到 Amazon CloudWatch 的模型容器日志外,您还可以获得用于跟踪和调试推理请求的新平台日志。

新日志发布到端点日志组下:

/aws/sagemaker/Endpoints/[EndpointName]

日志流名称包括:

[production-variant-name]/[instance-id]/data-log.

日志行包含请求的推理 ID,以便轻松地将错误与具体请求对应起来。