직접 호출을 사용하는 다중 컨테이너 엔드포인트에 대한 지표 - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

직접 호출을 사용하는 다중 컨테이너 엔드포인트에 대한 지표

에 나열된 엔드포인트 지표 외에도 Amazon CloudWatch를 사용하여 Amazon SageMaker AI를 모니터링하기 위한 지표 Amazon CloudWatch SageMaker AI는 컨테이너당 지표도 제공합니다.

직접 호출을 사용하는 다중 컨테이너 엔드포인트에 대한 컨테이너별 지표는 CloudWatch에 있으며 두 개의 네임스페이스, 즉, AWS/SageMaker aws/sagemaker/Endpoints로 분류됩니다. aws/sagemaker/Endpoints 네임스페이스에는 호출 관련 지표가 포함되고 AWS/SageMaker 네임스페이스에는 메모리 및 CPU 사용률 지표가 포함됩니다.

다음 표에는 직접 호출이 가능한 다중 컨테이너 엔드포인트에 대한 컨테이너별 지표가 나열되어 있습니다. 모든 지표는 [EndpointName, VariantName, ContainerName] 차원을 사용합니다. 이 차원은 특정 엔드포인트에서 특정 변형에 대해 특정 컨테이너에 해당하는 지표를 필터링합니다. 이러한 지표는 추론 파이프라인용 지표과 동일한 지표 이름을 공유하지만 컨테이너별 수준 [EndpointName, VariantName, ContainerName]에서 공유합니다.

지표 이름 설명 차원 NameSpace
Invocations 엔드포인트 내 컨테이너로 전송된 InvokeEndpoint 요청 수입니다. 해당 컨테이너에 전송된 총 요청 수를 가져오려면 Sum 통계를 사용합니다. 단위: 없음 유효한 통계: Sum, Sample Count EndpointName, VariantName, ContainerName AWS/SageMaker
Invocation4XX Errors 모델이 특정 컨테이너에 대해 4xx HTTP 응답 코드를 반환하는 InvokeEndpoint 요청의 수. 각 4xx 응답에 대해 SageMaker AI는를 전송합니다1. 단위: 없음 유효한 통계: Average, Sum EndpointName, VariantName, ContainerName AWS/SageMaker
Invocation5XX Errors 모델이 특정 컨테이너에 대해 5xx HTTP 응답 코드를 반환하는 InvokeEndpoint 요청의 수. 각 5xx 응답에 대해 SageMaker AI는를 전송합니다1. 단위: 없음 유효한 통계: Average, Sum EndpointName, VariantName, ContainerName AWS/SageMaker
ContainerLatency 대상 컨테이너가 SageMaker AI에서 볼 수 있는 대로 응답하는 데 걸린 시간입니다. 에는 요청을 보내고, 모델의 컨테이너에서 응답을 가져오고, 컨테이너에서 추론을 완료하는 데 걸린 시간이 ContainerLatency 포함됩니다. 단위: 마이크로초 유효한 통계: Average, Sum, Min, Max, Sample Count EndpointName, VariantName, ContainerName AWS/SageMaker
OverheadLatency 오버헤드에 대한 SageMaker AI의 클라이언트 요청에 응답하는 데 걸리는 시간에 추가된 시간입니다. OverheadLatency는 SageMaker AI가 요청을 수신하는 시간부터 클라이언트에 응답을 반환할 때까지 측정되며에서를 뺀 값입니다ModelLatency. 오버헤드 지연 시간은 특히 요청 및 응답 페이로드 크기, 요청 빈도와 요청 인증 또는 권한 부여 등과 같은 요인에 따라 달라질 수 있습니다. 단위: 마이크로초 유효한 통계: Average, Sum, Min, Max, `샘플 개수` EndpointName, VariantName, ContainerName AWS/SageMaker
CPUUtilization 인스턴스에서 실행 중인 각 컨테이너에서 사용하는 CPU 유닛의 비율(%)입니다. 값은 0%~100% 사이가 될 수 있고, CPU의 수를 곱합니다. 예를 들어 CPU가 4개인 경우 CPUUtilization는 0%~400%가 될 수 있습니다. 직접 호출이 있는 엔드포인트의 경우 CPU 사용률 지표의 수는 해당 엔드포인트의 컨테이너 수와 같습니다. 단위: 백분율 EndpointName, VariantName, ContainerName aws/sagemaker/Endpoints
MemoryUtilizaton 인스턴스에서 실행 중인 각 컨테이너에서 사용하는 메모리의 비율(%)입니다. 해당 값 범위는 0% ~ 100%입니다. CPU 사용률과 마찬가지로, 직접 호출이 있는 엔드포인트에서 MemoryUtilization 지표의 수는 해당 엔드포인트의 컨테이너 수와 같습니다. 단위: 백분율 EndpointName, VariantName, ContainerName aws/sagemaker/Endpoints

위 표의 모든 지표는 직접 호출을 사용하는 다중 컨테이너 엔드포인트에만 해당됩니다. 이러한 특수 컨테이너별 지표 외에도 테이블의 모든 지표에 대해 ContainerLatency를 예상하는 차원 [EndpointName, VariantName]을 포함하는 변형 수준의 지표도 있습니다.