进行直接调用的多容器端点的指标 - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

进行直接调用的多容器端点的指标

除了中列出的终端节点指标外使用亚马逊监控亚马逊 SageMaker AI 的指标 CloudWatch, SageMaker AI 还提供每个容器的指标。

直接调用的多容器终端节点的每容器指标位于两个命名空间中, CloudWatch 并分为两个命名空间:和。AWS/SageMaker aws/sagemaker/EndpointsAWS/SageMaker 命名空间包含与调用相关的指标,aws/sagemaker/Endpoints 命名空间包含内存和 CPU 利用率指标。

下表列出进行直接调用的多容器端点中每个容器的指标。所有指标都使用 [EndpointName, VariantName, ContainerName] 维度,它过滤特定端点、特定变体以及与特定容器对应的指标。这些指标与推理管线的指标名称相同,但处于单个容器级别 [EndpointName, VariantName, ContainerName]。

指标名称 描述 维度 NameSpace
Invocations 发送到端点内某个容器的 InvokeEndpoint 请求的数量。要获取发送到该容器的请求总数,请使用 Sum 统计数据。单位:无 有效统计数据:SumSample Count EndpointName, VariantName, ContainerName AWS/SageMaker
Invocation4XX Errors 位于特定容器中模型为其返回 4xx HTTP 响应代码的 InvokeEndpoint 请求的数量。对于每个4xx响应, SageMaker AI 都会发送1。单位:无 有效统计数据:AverageSum EndpointName, VariantName, ContainerName AWS/SageMaker
Invocation5XX Errors 位于特定容器中模型为其返回 5xx HTTP 响应代码的 InvokeEndpoint 请求的数量。对于每个5xx响应, SageMaker AI 都会发送1。单位:无 有效统计数据:AverageSum EndpointName, VariantName, ContainerName AWS/SageMaker
ContainerLatency 从 SageMaker AI 看来,目标容器响应所花费的时间。 ContainerLatency包括发送请求、从模型容器中获取响应以及在容器中完成推理所花费的时间。单位:微秒 有效统计数据:AverageSumMinMaxSample Count EndpointName, VariantName, ContainerName AWS/SageMaker
OverheadLatency 在响应 SageMaker AI 向客户提出的开销请求所花费的时间中增加的时间。 OverheadLatency从 A SageMaker I 收到请求到向客户端返回响应的时间减去ModelLatency。除其他因素外,开销延迟还可能由于请求和响应负载大小、请求频率以及请求的身份验证或授权而变化。单位:微秒 有效统计数据:AverageSumMinMax、“Sample Count” EndpointName, VariantName, ContainerName AWS/SageMaker
CPUUtilization 实例上运行的每个容器所使用的 CPU 单位的百分比。该值的范围从 0% 到 100%,并乘以的数量。 CPUs例如,如果有四个 CPUs,CPUUtilization则范围从 0% 到 400%。对于直接调用的终端节点, CPUUtilization 指标的数量等于该终端节点中的容器数量。单位:百分比 EndpointName, VariantName, ContainerName aws/sagemaker/Endpoints
MemoryUtilizaton 实例上运行的每个容器所使用的内存的百分比。此值范围从 0% 到 100%。与直接调用的终端节点类似, MemoryUtilization 指标的数量等于该端点中的容器数量。 CPUUtilization单位:百分比 EndpointName, VariantName, ContainerName aws/sagemaker/Endpoints

上表中的所有指标都特定于可直接调用的多容器端点。除这些用于每个容器的特殊指标之外,还有一些具有 [EndpointName, VariantName] 维度的变体级别指标,因为表中的所有指标都需要 ContainerLatency