직접 호출을 사용하는 다중 컨테이너 엔드포인트에 대한 지표

에 나열된 엔드포인트 지표 외에도 Amazon CloudWatch를 사용하여 Amazon SageMaker AI를 모니터링하기 위한 지표 Amazon CloudWatch SageMaker AI는 컨테이너당 지표도 제공합니다.

직접 호출을 사용하는 다중 컨테이너 엔드포인트에 대한 컨테이너별 지표는 CloudWatch에 있으며 두 개의 네임스페이스, 즉, AWS/SageMaker aws/sagemaker/Endpoints로 분류됩니다. aws/sagemaker/Endpoints 네임스페이스에는 호출 관련 지표가 포함되고 AWS/SageMaker 네임스페이스에는 메모리 및 CPU 사용률 지표가 포함됩니다.

다음 표에는 직접 호출이 가능한 다중 컨테이너 엔드포인트에 대한 컨테이너별 지표가 나열되어 있습니다. 모든 지표는 [EndpointName, VariantName, ContainerName] 차원을 사용합니다. 이 차원은 특정 엔드포인트에서 특정 변형에 대해 특정 컨테이너에 해당하는 지표를 필터링합니다. 이러한 지표는 추론 파이프라인용 지표과 동일한 지표 이름을 공유하지만 컨테이너별 수준 [EndpointName, VariantName, ContainerName]에서 공유합니다.

지표 이름	설명	차원	NameSpace
`Invocations`	엔드포인트 내 컨테이너로 전송된 `InvokeEndpoint` 요청 수입니다. 해당 컨테이너에 전송된 총 요청 수를 가져오려면 `Sum` 통계를 사용합니다. 단위: 없음 유효한 통계: `Sum`, `Sample Count`	`EndpointName`, `VariantName`, `ContainerName`	`AWS/SageMaker`
`Invocation4XX Errors`	모델이 특정 컨테이너에 대해 `4xx` HTTP 응답 코드를 반환하는 `InvokeEndpoint` 요청의 수. 각 `4xx` 응답에 대해 SageMaker AI는를 전송합니다`1`. 단위: 없음 유효한 통계: `Average`, `Sum`	`EndpointName`, `VariantName`, `ContainerName`	`AWS/SageMaker`
`Invocation5XX Errors`	모델이 특정 컨테이너에 대해 `5xx` HTTP 응답 코드를 반환하는 `InvokeEndpoint` 요청의 수. 각 `5xx` 응답에 대해 SageMaker AI는를 전송합니다`1`. 단위: 없음 유효한 통계: `Average`, `Sum`	`EndpointName`, `VariantName`, `ContainerName`	`AWS/SageMaker`
`ContainerLatency`	대상 컨테이너가 SageMaker AI에서 볼 수 있는 대로 응답하는 데 걸린 시간입니다. 에는 요청을 보내고, 모델의 컨테이너에서 응답을 가져오고, 컨테이너에서 추론을 완료하는 데 걸린 시간이 `ContainerLatency` 포함됩니다. 단위: 마이크로초 유효한 통계: `Average`, `Sum`, `Min`, `Max`, `Sample Count`	`EndpointName`, `VariantName`, `ContainerName`	`AWS/SageMaker`
`OverheadLatency`	오버헤드에 대한 SageMaker AI의 클라이언트 요청에 응답하는 데 걸리는 시간에 추가된 시간입니다. `OverheadLatency`는 SageMaker AI가 요청을 수신하는 시간부터 클라이언트에 응답을 반환할 때까지 측정되며에서를 뺀 값입니다`ModelLatency`. 오버헤드 지연 시간은 특히 요청 및 응답 페이로드 크기, 요청 빈도와 요청 인증 또는 권한 부여 등과 같은 요인에 따라 달라질 수 있습니다. 단위: 마이크로초 유효한 통계: `Average`, `Sum`, `Min`, `Max`, `샘플 개수`	`EndpointName`, `VariantName`, `ContainerName`	`AWS/SageMaker`
`CPUUtilization`	인스턴스에서 실행 중인 각 컨테이너에서 사용하는 CPU 유닛의 비율(%)입니다. 값은 0%~100% 사이가 될 수 있고, CPU의 수를 곱합니다. 예를 들어 CPU가 4개인 경우 `CPUUtilization`는 0%~400%가 될 수 있습니다. 직접 호출이 있는 엔드포인트의 경우 CPU 사용률 지표의 수는 해당 엔드포인트의 컨테이너 수와 같습니다. 단위: 백분율	`EndpointName`, `VariantName`, `ContainerName`	`aws/sagemaker/Endpoints`
`MemoryUtilizaton`	인스턴스에서 실행 중인 각 컨테이너에서 사용하는 메모리의 비율(%)입니다. 해당 값 범위는 0% ~ 100%입니다. CPU 사용률과 마찬가지로, 직접 호출이 있는 엔드포인트에서 MemoryUtilization 지표의 수는 해당 엔드포인트의 컨테이너 수와 같습니다. 단위: 백분율	`EndpointName`, `VariantName`, `ContainerName`	`aws/sagemaker/Endpoints`

위 표의 모든 지표는 직접 호출을 사용하는 다중 컨테이너 엔드포인트에만 해당됩니다. 이러한 특수 컨테이너별 지표 외에도 테이블의 모든 지표에 대해 ContainerLatency를 예상하는 차원 [EndpointName, VariantName]을 포함하는 변형 수준의 지표도 있습니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

직접 호출을 통한 다중 컨테이너 엔드포인트의 보안

다중 컨테이너 엔드포인트 오토 스케일링