CloudWatch 다중 모델 엔드포인트 배포에 대한 지표 - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

CloudWatch 다중 모델 엔드포인트 배포에 대한 지표

Amazon SageMaker AI는 엔드포인트에 대한 지표를 제공하므로 다중 모델 엔드포인트에서 캐시 적중률, 로드된 모델 수 및 로드, 다운로드 및 업로드를 위한 모델 대기 시간을 모니터링할 수 있습니다. 일부 지표는 CPU 및 GPU 지원되는 다중 모델 엔드포인트에 대해 다르므로 다음 섹션에서는 각 유형의 다중 모델 엔드포인트에 사용할 수 있는 Amazon CloudWatch 지표를 설명합니다.

지표에 대한 자세한 내용은 Amazon을 사용하여 Amazon SageMaker AI를 모니터링하기 위한 지표 CloudWatch다중 모델 엔드포인트 모델 로드 지표다중 모델 엔드포인트 모델 인스턴스 지표를 참조하세요. 모델별 지표는 지원되지 않습니다.

CloudWatch CPU 지원되는 다중 모델 엔드포인트에 대한 지표

CPU 지원되는 다중 모델 엔드포인트에서 다음 지표를 모니터링할 수 있습니다.

AWS/SageMaker 네임스페이스에는에 대한 호출에서 다음과 같은 모델 로드 지표가 InvokeEndpoint포함됩니다.

지표는 1분 간격으로 제공됩니다.

CloudWatch 지표 보존 기간에 대한 자세한 내용은 Amazon CloudWatch API 참조GetMetricStatistics의 섹션을 참조하세요.

다중 모델 엔드포인트 모델 로드 지표

지표 설명
ModelLoadingWaitTime

추론을 수행하기 위해 대상 모델이 다운로드되거나, 로드되거나, 다운로드 및 로드될 때까지 호출 요청이 대기한 시간 간격입니다.

단위: 마이크로초

유효 통계: Average, Sum, Min, Max, Sample Count

ModelUnloadingTime

컨테이너의 UnloadModel API 호출을 통해 모델을 언로드하는 데 걸린 시간 간격입니다.

단위: 마이크로초

유효 통계: Average, Sum, Min, Max, Sample Count

ModelDownloadingTime

Amazon Simple Storage Service(S3)에서 모델을 다운로드하는 데 걸린 시간 간격입니다.

단위: 마이크로초

유효 통계: Average, Sum, Min, Max, Sample Count

ModelLoadingTime

컨테이너의 LoadModel API 호출을 통해 모델을 로드하는 데 걸린 시간 간격입니다.

단위: 마이크로초

유효 통계: Average, Sum, Min, Max, Sample Count

ModelCacheHit

모델이 이미 로드된 다중 모델 엔드포인트로 전송된 InvokeEndpoint 요청 수입니다.

평균 통계는 모델이 이미 로드된 요청의 비율을 보여줍니다.

단위: 없음

유효한 통계: 평균, 합계, 샘플 개수

Dimensions for Multi–Model Endpoint Model Loading Metrics(다중 모델 엔드포인트 모델 로드 지표의 차원)

차원 설명
EndpointName, VariantName

지정된 엔드포인트 및 변환의 ProductionVariant에 대한 엔드포인트 호출 지표를 필터링합니다.

/aws/sagemaker/Endpoints 네임스페이스에는 InvokeEndpoint 호출을 통해 생성된 다음과 같은 인스턴스 지표가 포함됩니다.

지표는 1분 간격으로 제공됩니다.

CloudWatch 지표 보존 기간에 대한 자세한 내용은 Amazon CloudWatch API 참조GetMetricStatistics의 섹션을 참조하세요.

Multi–Model Endpoint Model Instance Metrics(다중 모델 엔드포인트 모델 인스턴스 지표)

지표 설명
LoadedModelCount

다중 모델 엔드포인트의 컨테이너에 로드된 모델 수입니다. 이 지표는 인스턴스별로 내보내집니다.

1분의 평균 통계는 인스턴스당 로드된 평균 모델 수를 나타냅니다.

합계 통계는 엔드포인트의 모든 인스턴스에 로드된 총 모델 수를 알려줍니다.

모델이 엔드포인트의 여러 컨테이너에 로드될 수 있기 때문에 이 지표가 추적하는 모델은 고유하지 않을 수 있습니다.

단위: 없음

유효 통계: Average, Sum, Min, Max, Sample Count

CPUUtilization

각 개별 CPU 코어의 사용률 합계입니다. 각 코어 범위의 CPU 사용률은 0~100입니다. 예를 들어,가 4개인 경우 CPUs CPUUtilization 범위는 0%~400%입니다.

엔드포인트 변형의 경우 값은 인스턴스의 기본 및 보조 컨테이너 CPU 사용률의 합계입니다.

단위: 백분율

MemoryUtilization

인스턴스의 컨테이너에서 사용하는 메모리의 비율(%)입니다. 이 값 범위는 0%~100%입니다.

엔드포인트 변환의 경우 이 값은 인스턴스에 있는 기본 및 보조 컨테이너의 메모리 사용률 총합입니다.

단위: 백분율

DiskUtilization

인스턴스의 컨테이너에서 사용하는 디스크 공간의 비율입니다. 이 값 범위는 0%~100%입니다.

엔드포인트 변환의 경우 이 값은 인스턴스에 있는 기본 및 보조 컨테이너의 디스크 공간 사용률 합계입니다.

단위: 백분율

CloudWatch GPU 다중 모델 엔드포인트 배포에 대한 지표

GPU 지원되는 다중 모델 엔드포인트에서 다음 지표를 모니터링할 수 있습니다.

AWS/SageMaker 네임스페이스에는에 대한 호출에서 다음과 같은 모델 로드 지표가 InvokeEndpoint포함됩니다.

지표는 1분 간격으로 제공됩니다.

CloudWatch 지표 보존 기간에 대한 자세한 내용은 Amazon CloudWatch API 참조GetMetricStatistics의 섹션을 참조하세요.

다중 모델 엔드포인트 모델 로드 지표

지표 설명
ModelLoadingWaitTime

추론을 수행하기 위해 대상 모델이 다운로드되거나, 로드되거나, 다운로드 및 로드될 때까지 호출 요청이 대기한 시간 간격입니다.

단위: 마이크로초

유효 통계: Average, Sum, Min, Max, Sample Count

ModelUnloadingTime

컨테이너의 UnloadModel API 호출을 통해 모델을 언로드하는 데 걸린 시간 간격입니다.

단위: 마이크로초

유효 통계: Average, Sum, Min, Max, Sample Count

ModelDownloadingTime

Amazon Simple Storage Service(S3)에서 모델을 다운로드하는 데 걸린 시간 간격입니다.

단위: 마이크로초

유효 통계: Average, Sum, Min, Max, Sample Count

ModelLoadingTime

컨테이너의 LoadModel API 호출을 통해 모델을 로드하는 데 걸린 시간 간격입니다.

단위: 마이크로초

유효 통계: Average, Sum, Min, Max, Sample Count

ModelCacheHit

모델이 이미 로드된 다중 모델 엔드포인트로 전송된 InvokeEndpoint 요청 수입니다.

평균 통계는 모델이 이미 로드된 요청의 비율을 보여줍니다.

단위: 없음

유효한 통계: 평균, 합계, 샘플 개수

Dimensions for Multi–Model Endpoint Model Loading Metrics(다중 모델 엔드포인트 모델 로드 지표의 차원)

차원 설명
EndpointName, VariantName

지정된 엔드포인트 및 변환의 ProductionVariant에 대한 엔드포인트 호출 지표를 필터링합니다.

/aws/sagemaker/Endpoints 네임스페이스에는 InvokeEndpoint 호출을 통해 생성된 다음과 같은 인스턴스 지표가 포함됩니다.

지표는 1분 간격으로 제공됩니다.

CloudWatch 지표가 보존되는 기간에 대한 자세한 내용은 Amazon CloudWatch API 참조GetMetricStatistics의 섹션을 참조하세요.

Multi–Model Endpoint Model Instance Metrics(다중 모델 엔드포인트 모델 인스턴스 지표)

지표 설명
LoadedModelCount

다중 모델 엔드포인트의 컨테이너에 로드된 모델 수입니다. 이 지표는 인스턴스별로 내보내집니다.

1분의 평균 통계는 인스턴스당 로드된 평균 모델 수를 나타냅니다.

합계 통계는 엔드포인트의 모든 인스턴스에 로드된 총 모델 수를 알려줍니다.

모델이 엔드포인트의 여러 컨테이너에 로드될 수 있기 때문에 이 지표가 추적하는 모델은 고유하지 않을 수 있습니다.

단위: 없음

유효 통계: Average, Sum, Min, Max, Sample Count

CPUUtilization

각 개별 CPU 코어의 사용률 합계입니다. 각 코어 범위의 CPU 사용률은 0~100입니다. 예를 들어가 4개인 경우 CPUs CPUUtilization 범위는 0%~400%입니다.

엔드포인트 변형의 경우 값은 인스턴스의 기본 및 보조 컨테이너 CPU 사용률의 합계입니다.

단위: 백분율

MemoryUtilization

인스턴스의 컨테이너에서 사용하는 메모리의 비율(%)입니다. 이 값 범위는 0%~100%입니다.

엔드포인트 변환의 경우 이 값은 인스턴스에 있는 기본 및 보조 컨테이너의 메모리 사용률 총합입니다.

단위: 백분율

GPUUtilization

인스턴스의 컨테이너에서 사용하는 GPU 단위의 백분율입니다. 값의 범위는 0~100이며의 수를 곱합니다GPUs. 예를 들어가 4개인 경우 GPUs GPUUtilization 범위는 0%~400%입니다.

엔드포인트 변형의 경우 값은 인스턴스의 기본 및 보조 컨테이너 GPU 사용률의 합계입니다.

단위: 백분율

GPUMemoryUtilization

인스턴스의 컨테이너에서 사용하는 GPU 메모리의 백분율입니다. 값 범위는 0~100이며의 수를 곱합니다GPUs. 예를 들어가 4개인 경우 GPUs GPUMemoryUtilization 범위는 0%~400%입니다.

엔드포인트 변형의 경우 값은 인스턴스의 기본 및 보조 컨테이너의 GPU 메모리 사용률 합계입니다.

단위: 백분율

DiskUtilization

인스턴스의 컨테이너에서 사용하는 디스크 공간의 비율입니다. 이 값 범위는 0%~100%입니다.

엔드포인트 변환의 경우 이 값은 인스턴스에 있는 기본 및 보조 컨테이너의 디스크 공간 사용률 합계입니다.

단위: 백분율