CloudWatch CPU 지원되는 다중 모델 엔드포인트에 대한 지표 CloudWatch GPU 다중 모델 엔드포인트 배포에 대한 지표

CloudWatch 다중 모델 엔드포인트 배포에 대한 지표

Amazon SageMaker AI는 엔드포인트에 대한 지표를 제공하므로 다중 모델 엔드포인트에서 캐시 적중률, 로드된 모델 수 및 로드, 다운로드 및 업로드를 위한 모델 대기 시간을 모니터링할 수 있습니다. 일부 지표는 CPU 및 GPU 지원되는 다중 모델 엔드포인트에 대해 다르므로 다음 섹션에서는 각 유형의 다중 모델 엔드포인트에 사용할 수 있는 Amazon CloudWatch 지표를 설명합니다.

지표에 대한 자세한 내용은 Amazon을 사용하여 Amazon SageMaker AI를 모니터링하기 위한 지표 CloudWatch의 다중 모델 엔드포인트 모델 로드 지표 및 다중 모델 엔드포인트 모델 인스턴스 지표를 참조하세요. 모델별 지표는 지원되지 않습니다.

CloudWatch CPU 지원되는 다중 모델 엔드포인트에 대한 지표

CPU 지원되는 다중 모델 엔드포인트에서 다음 지표를 모니터링할 수 있습니다.

AWS/SageMaker 네임스페이스에는에 대한 호출에서 다음과 같은 모델 로드 지표가 InvokeEndpoint포함됩니다.

지표는 1분 간격으로 제공됩니다.

CloudWatch 지표 보존 기간에 대한 자세한 내용은 Amazon CloudWatch API 참조GetMetricStatistics의 섹션을 참조하세요.

다중 모델 엔드포인트 모델 로드 지표

지표	설명
`ModelLoadingWaitTime`	추론을 수행하기 위해 대상 모델이 다운로드되거나, 로드되거나, 다운로드 및 로드될 때까지 호출 요청이 대기한 시간 간격입니다. 단위: 마이크로초 유효 통계: Average, Sum, Min, Max, Sample Count
`ModelUnloadingTime`	컨테이너의 `UnloadModel` API 호출을 통해 모델을 언로드하는 데 걸린 시간 간격입니다. 단위: 마이크로초 유효 통계: Average, Sum, Min, Max, Sample Count
`ModelDownloadingTime`	Amazon Simple Storage Service(S3)에서 모델을 다운로드하는 데 걸린 시간 간격입니다. 단위: 마이크로초 유효 통계: Average, Sum, Min, Max, Sample Count
`ModelLoadingTime`	컨테이너의 `LoadModel` API 호출을 통해 모델을 로드하는 데 걸린 시간 간격입니다. 단위: 마이크로초 유효 통계: Average, Sum, Min, Max, Sample Count
`ModelCacheHit`	모델이 이미 로드된 다중 모델 엔드포인트로 전송된 `InvokeEndpoint` 요청 수입니다. 평균 통계는 모델이 이미 로드된 요청의 비율을 보여줍니다. 단위: 없음 유효한 통계: 평균, 합계, 샘플 개수

Dimensions for Multi–Model Endpoint Model Loading Metrics(다중 모델 엔드포인트 모델 로드 지표의 차원)

차원	설명
`EndpointName, VariantName`	지정된 엔드포인트 및 변환의 `ProductionVariant`에 대한 엔드포인트 호출 지표를 필터링합니다.

/aws/sagemaker/Endpoints 네임스페이스에는 InvokeEndpoint 호출을 통해 생성된 다음과 같은 인스턴스 지표가 포함됩니다.

지표는 1분 간격으로 제공됩니다.

CloudWatch 지표 보존 기간에 대한 자세한 내용은 Amazon CloudWatch API 참조GetMetricStatistics의 섹션을 참조하세요.

Multi–Model Endpoint Model Instance Metrics(다중 모델 엔드포인트 모델 인스턴스 지표)

지표	설명
`LoadedModelCount`	다중 모델 엔드포인트의 컨테이너에 로드된 모델 수입니다. 이 지표는 인스턴스별로 내보내집니다. 1분의 평균 통계는 인스턴스당 로드된 평균 모델 수를 나타냅니다. 합계 통계는 엔드포인트의 모든 인스턴스에 로드된 총 모델 수를 알려줍니다. 모델이 엔드포인트의 여러 컨테이너에 로드될 수 있기 때문에 이 지표가 추적하는 모델은 고유하지 않을 수 있습니다. 단위: 없음 유효 통계: Average, Sum, Min, Max, Sample Count
`CPUUtilization`	각 개별 CPU 코어의 사용률 합계입니다. 각 코어 범위의 CPU 사용률은 0~100입니다. 예를 들어,가 4개인 경우 CPUs `CPUUtilization` 범위는 0%~400%입니다. 엔드포인트 변형의 경우 값은 인스턴스의 기본 및 보조 컨테이너 CPU 사용률의 합계입니다. 단위: 백분율
`MemoryUtilization`	인스턴스의 컨테이너에서 사용하는 메모리의 비율(%)입니다. 이 값 범위는 0%~100%입니다. 엔드포인트 변환의 경우 이 값은 인스턴스에 있는 기본 및 보조 컨테이너의 메모리 사용률 총합입니다. 단위: 백분율
`DiskUtilization`	인스턴스의 컨테이너에서 사용하는 디스크 공간의 비율입니다. 이 값 범위는 0%~100%입니다. 엔드포인트 변환의 경우 이 값은 인스턴스에 있는 기본 및 보조 컨테이너의 디스크 공간 사용률 합계입니다. 단위: 백분율

CloudWatch GPU 다중 모델 엔드포인트 배포에 대한 지표

GPU 지원되는 다중 모델 엔드포인트에서 다음 지표를 모니터링할 수 있습니다.

AWS/SageMaker 네임스페이스에는에 대한 호출에서 다음과 같은 모델 로드 지표가 InvokeEndpoint포함됩니다.

지표는 1분 간격으로 제공됩니다.

CloudWatch 지표 보존 기간에 대한 자세한 내용은 Amazon CloudWatch API 참조GetMetricStatistics의 섹션을 참조하세요.

다중 모델 엔드포인트 모델 로드 지표

지표	설명
`ModelLoadingWaitTime`	추론을 수행하기 위해 대상 모델이 다운로드되거나, 로드되거나, 다운로드 및 로드될 때까지 호출 요청이 대기한 시간 간격입니다. 단위: 마이크로초 유효 통계: Average, Sum, Min, Max, Sample Count
`ModelUnloadingTime`	컨테이너의 `UnloadModel` API 호출을 통해 모델을 언로드하는 데 걸린 시간 간격입니다. 단위: 마이크로초 유효 통계: Average, Sum, Min, Max, Sample Count
`ModelDownloadingTime`	Amazon Simple Storage Service(S3)에서 모델을 다운로드하는 데 걸린 시간 간격입니다. 단위: 마이크로초 유효 통계: Average, Sum, Min, Max, Sample Count
`ModelLoadingTime`	컨테이너의 `LoadModel` API 호출을 통해 모델을 로드하는 데 걸린 시간 간격입니다. 단위: 마이크로초 유효 통계: Average, Sum, Min, Max, Sample Count
`ModelCacheHit`	모델이 이미 로드된 다중 모델 엔드포인트로 전송된 `InvokeEndpoint` 요청 수입니다. 평균 통계는 모델이 이미 로드된 요청의 비율을 보여줍니다. 단위: 없음 유효한 통계: 평균, 합계, 샘플 개수

Dimensions for Multi–Model Endpoint Model Loading Metrics(다중 모델 엔드포인트 모델 로드 지표의 차원)

차원	설명
`EndpointName, VariantName`	지정된 엔드포인트 및 변환의 `ProductionVariant`에 대한 엔드포인트 호출 지표를 필터링합니다.

/aws/sagemaker/Endpoints 네임스페이스에는 InvokeEndpoint 호출을 통해 생성된 다음과 같은 인스턴스 지표가 포함됩니다.

지표는 1분 간격으로 제공됩니다.

CloudWatch 지표가 보존되는 기간에 대한 자세한 내용은 Amazon CloudWatch API 참조GetMetricStatistics의 섹션을 참조하세요.

Multi–Model Endpoint Model Instance Metrics(다중 모델 엔드포인트 모델 인스턴스 지표)

지표	설명
`LoadedModelCount`	다중 모델 엔드포인트의 컨테이너에 로드된 모델 수입니다. 이 지표는 인스턴스별로 내보내집니다. 1분의 평균 통계는 인스턴스당 로드된 평균 모델 수를 나타냅니다. 합계 통계는 엔드포인트의 모든 인스턴스에 로드된 총 모델 수를 알려줍니다. 모델이 엔드포인트의 여러 컨테이너에 로드될 수 있기 때문에 이 지표가 추적하는 모델은 고유하지 않을 수 있습니다. 단위: 없음 유효 통계: Average, Sum, Min, Max, Sample Count
`CPUUtilization`	각 개별 CPU 코어의 사용률 합계입니다. 각 코어 범위의 CPU 사용률은 0~100입니다. 예를 들어가 4개인 경우 CPUs `CPUUtilization` 범위는 0%~400%입니다. 엔드포인트 변형의 경우 값은 인스턴스의 기본 및 보조 컨테이너 CPU 사용률의 합계입니다. 단위: 백분율
`MemoryUtilization`	인스턴스의 컨테이너에서 사용하는 메모리의 비율(%)입니다. 이 값 범위는 0%~100%입니다. 엔드포인트 변환의 경우 이 값은 인스턴스에 있는 기본 및 보조 컨테이너의 메모리 사용률 총합입니다. 단위: 백분율
`GPUUtilization`	인스턴스의 컨테이너에서 사용하는 GPU 단위의 백분율입니다. 값의 범위는 0~100이며의 수를 곱합니다GPUs. 예를 들어가 4개인 경우 GPUs `GPUUtilization` 범위는 0%~400%입니다. 엔드포인트 변형의 경우 값은 인스턴스의 기본 및 보조 컨테이너 GPU 사용률의 합계입니다. 단위: 백분율
`GPUMemoryUtilization`	인스턴스의 컨테이너에서 사용하는 GPU 메모리의 백분율입니다. 값 범위는 0~100이며의 수를 곱합니다GPUs. 예를 들어가 4개인 경우 GPUs `GPUMemoryUtilization` 범위는 0%~400%입니다. 엔드포인트 변형의 경우 값은 인스턴스의 기본 및 보조 컨테이너의 GPU 메모리 사용률 합계입니다. 단위: 백분율
`DiskUtilization`	인스턴스의 컨테이너에서 사용하는 디스크 공간의 비율입니다. 이 값 범위는 0%~100%입니다. 엔드포인트 변환의 경우 이 값은 인스턴스에 있는 기본 및 보조 컨테이너의 디스크 공간 사용률 합계입니다. 단위: 백분율

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

보안

SageMaker AI 다중 모델 엔드포인트 모델 캐싱 동작 설정