本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
用于跟踪来自异步端点的指标的警报和日志
您可以 SageMaker 使用 Amazon 进行监控 CloudWatch,Amazon 会收集原始数据并将其处理为可读的近乎实时的指标。借助 Amazon CloudWatch,您可以访问历史信息,更好地了解您的 Web 应用程序或服务的性能。有关亚马逊的更多信息 CloudWatch,请参阅什么是亚马逊 CloudWatch?
使用监控 CloudWatch
以下指标是 AWS/SageMaker
中的异步端点指标的详尽列表。如果为异步推理启用了端点,则只会发布下方列出的指标。这些指标包括(但不限于):
OverheadLatency
Invocations
InvocationsPerInstance
常见端点指标
这些指标与目前为实时端点发布的指标相同。有关亚马逊中其他指标的更多信息 CloudWatch,请参阅 SageMaker 使用亚马逊进行监控 CloudWatch。
指标名称 | 描述 | 单位/统计数据 |
---|---|---|
|
模型返回 4xx HTTP 响应代码的请求数。对于每个 4xx 响应,发送 1;否则,发送 0。 |
单位:无 有效统计数据:Average、Sum |
|
模型返回 5xx HTTP 响应代码的 InvokeEndpoint 请求数。对于每个 5xx 响应,发送 1;否则,发送 0。 |
单位:无 有效统计数据:Average、Sum |
|
从中可以看出,模型做出响应所花费的时间间隔 SageMaker。此时间间隔包括发送请求以及从模型容器提取响应的本地通信时间,以及在容器中完成推理所用的时间。 |
单位:微秒 有效统计数据:Average、Sum、Min、Max、Sample Count |
异步推理端点指标
这些指标针对为异步推理启用的端点发布。通过 EndpointName
维度发布以下指标:
指标名称 | 描述 | 单位/统计数据 |
---|---|---|
|
某个端点的队列中,当前正在处理或尚未处理的项目数。 |
单位:计数 有效统计数据:Average、Max、Min |
|
队列中的项目数除以端点后台的实例数。此指标主要用于为启用了异步的端点设置应用程序自动缩放。 |
单位:计数 有效统计数据:Average、Max、Min |
|
队列中最早请求的龄期。 |
单位:秒 有效统计数据:Average、Max、Min |
|
当队列中有请求但端点后台没有实例时,此指标的值是 |
单位:计数 有效统计数据:Average |
通过 EndpointName
和 VariantName
维度发布以下指标:
指标名称 | 描述 | 单位/统计数据 |
---|---|---|
|
由于从 Amazon S3 下载请求时现问题,从而导致推理失败时。 |
单位:计数 有效统计数据:Sum |
|
由于将响应上传到 Amazon S3 出现问题,从而导致推理失败时。 |
单位:计数 有效统计数据:Sum |
|
在出现问题时发布通知。 |
单位:计数 有效统计数据:Sum |
|
下载请求负载的总时间。 |
单位:微秒 有效统计数据:Average、Sum、Min、Max、Sample Count |
|
上传响应负载的总时间。 |
单位:微秒 有效统计数据:Average、Sum、Min、Max、Sample Count |
|
队列中因达到指定请求而失败的请求数TTL。 |
单位:计数 有效统计数据:Sum |
|
调用由于任何原因而失败时。 |
单位:计数 有效统计数据:Sum |
|
端点处理的异步调用数量。 |
单位:计数 有效统计数据:Sum |
|
请求在得到处理之前排队的总时间。这不包括实际处理时间(即下载时间、上传时间、模型延迟)。 |
单位:毫秒 有效统计数据:Average、Sum、Min、Max、Sample Count |
|
收到推理请求的时间截止 SageMaker 到请求处理完毕的时间。这包括积压时间以及上传和发送回复通知(如果有)的时间。 |
单位:毫秒 有效统计数据:Average、Sum、Min、Max、Sample Count |
Amazon SageMaker 异步推理还包括主机级指标。有关主机级指标的信息,请参阅SageMaker 任务和端点指标。
日志
除了在您的账户中发布到 Amazon CloudWatch 的模型容器日志外,您还可以获得用于跟踪和调试推理请求的新平台日志。
新日志发布到端点日志组下:
/aws/sagemaker/Endpoints/
[EndpointName]
日志流名称包括:
[production-variant-name]
/[instance-id]
/data-log.
日志行包含请求的推理 ID,以便轻松地将错误与具体请求对应起来。