SageMaker 아마존과 함께 아마존을 모니터링하세요 CloudWatch - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

SageMaker 아마존과 함께 아마존을 모니터링하세요 CloudWatch

원시 데이터를 수집하여 읽을 수 있는 거의 실시간 지표로 처리하는 Amazon을 SageMaker 사용하여 CloudWatch Amazon을 모니터링할 수 있습니다. 이러한 통계는 15개월간 보관되므로 기록 정보에 액세스하고 웹 애플리케이션 또는 서비스가 어떻게 실행되고 있는지 전체적으로 더 잘 파악할 수 있습니다. 하지만 Amazon CloudWatch 콘솔에서는 지난 2주 동안 업데이트된 지표만 검색하도록 제한합니다. 이 제한은 가장 최신 작업이 네임스페이스에 표시되도록 보장합니다. 검색을 사용하지 않고 지표를 그래프로 표시하려면 소스 보기에서 지표의 정확한 이름을 지정합니다. 특정 임계값을 주시하다가 해당 임계값이 충족될 때 알림을 전송하거나 조치를 취하도록 경보를 설정할 수도 있습니다. 자세한 내용은 Amazon CloudWatch 사용 설명서를 참조하십시오.

SageMaker 엔드포인트 호출 지표

AWS/SageMaker네임스페이스에는 호출에서 발생한 다음과 같은 요청 지표가 포함됩니다. InvokeEndpoint

지표는 1분 간격으로 제공됩니다.

다음 그림은 SageMaker 엔드포인트가 Amazon SageMaker Runtime API와 상호 작용하는 방식을 보여줍니다. 엔드포인트로 요청을 보내고 응답을 받는 데 걸리는 전체 시간은 다음 세 가지 구성 요소에 따라 달라집니다.

  • 네트워크 지연 시간 — 런타임 런타임 API에 요청한 후 SageMaker 런타임 API로부터 응답을 받는 데 걸리는 시간입니다. SageMaker

  • 오버헤드 지연 시간 — 런타임 API에서 모델 컨테이너로 요청을 전송하고 SageMaker 런타임 런타임 API로 응답을 다시 전송하는 데 걸리는 시간입니다. SageMaker

  • 모델 지연 시간(Model latency) - 모델 컨테이너가 요청을 처리하고 응답을 반환하는 데 걸리는 시간입니다.

총 지연 시간(total latency)이 네트워크, 오버헤드 및 모델 지연 시간의 합계임을 보여주는 그림.

총 지연 시간에 대한 자세한 내용은 Amazon SageMaker 실시간 추론 엔드포인트 부하 테스트 모범 사례를 참조하십시오. CloudWatch 지표가 보존되는 기간에 대한 자세한 내용은 Amazon CloudWatch API 참조를 참조하십시오 GetMetricStatistics.

Endpoint Invocation Metric(엔드포인트 호출 지표)

지표 설명
Invocation4XXErrors

모델이 4xx HTTP 응답 코드를 반환하는 InvokeEndpoint 요청의 수. 각 4xx 응답에서 1이 전송되고, 그 외의 경우에는 0이 전송됩니다.

단위: 없음

유효한 통계: Average, Sum

Invocation5XXErrors

모델이 5xx HTTP 응답 코드를 반환하는 InvokeEndpoint 요청의 수. 각 5xx 응답에서 1이 전송되고, 그 외의 경우에는 0이 전송됩니다.

단위: 없음

유효한 통계: Average, Sum

InvocationModelErrors

2XX HTTP 응답으로 이어지지 않은 모델 호출 요청 수. 여기에는 4XX/5XX 상태 코드, 저수준 소켓 오류, 잘못된 HTTP 응답 및 요청 제한 시간이 포함됩니다. 각 오류 응답에 대해 1이 전송되고, 그 외의 경우에는 0이 전송됩니다.

단위: 없음

유효한 통계: Average, Sum

Invocations

모델 엔드포인트에 전송된 InvokeEndpoint 요청의 수입니다.

모델 엔드포인트에 전송된 총 요청 수를 가져오려면 Sum 통계를 사용합니다.

단위: 없음

유효 통계: Sum

InvocationsPerCopy

추론 구성 요소의 각 사본에 의해 정규화된 호출 수.

유효 통계: Sum

InvocationsPerInstance

모델에 전송된 호출 수로, InstanceCount 각각에 의해 정규화됩니다 ProductionVariant. numberOfInstances 1/은 각 요청의 값으로 전송됩니다. 여기서 numberOfInstances 는 요청 당시 엔드포인트 ProductionVariant 뒤의 활성 인스턴스 수입니다.

단위: 없음

유효 통계: Sum

ModelLatency

모델이 SageMaker 런타임 API 요청에 응답하는 데 걸리는 시간 간격. 이 간격에는 요청을 전송하고 모델 컨테이너에서 응답을 가져오는 데 걸리는 로컬 통신 시간과 컨테이너에서 추론을 완료하는 데 걸리는 시간도 포함됩니다.

단위: 마이크로초

유효 통계: Average, Sum, Min, Max, Sample Count

ModelSetupTime

서버리스 엔드포인트를 위해 새 컴퓨팅 리소스를 시작하는 데 걸리는 시간입니다. 시간은 모델 크기, 모델 다운로드에 걸리는 시간, 컨테이너의 시작 시간에 따라 달라집니다.

단위: 마이크로초

유효 통계: Average, Min, Max, Sample Count, Percentiles

OverheadLatency

클라이언트 요청에 응답하는 데 걸리는 시간을 SageMaker 오버헤드로 계산하여 더한 시간 간격입니다. 이 간격은 요청을 SageMaker 받은 시간부터 클라이언트에 대한 응답을 반환할 때까지의 시간을 뺀 값입니다. ModelLatency 오버헤드 지연 시간은 요청 및 응답 페이로드 크기, 요청 빈도, 요청의 인증/권한 부여 등을 포함한 여러 요인에 따라 다를 수 있습니다.

단위: 마이크로초

유효 통계: Average, Sum, Min, Max, Sample Count

엔드포인트 호출 지표의 차원

측정기준 설명
EndpointName, VariantName

지정된 엔드포인트 및 변환의 ProductionVariant에 대한 엔드포인트 호출 지표를 필터링합니다.

InferenceComponentName

추론 구성 요소 호출 지표를 필터링합니다.

SageMaker 추론 구성 요소 지표

/aws/sagemaker/InferenceComponents네임스페이스에는 추론 구성 요소를 호스팅하는 InvokeEndpoint엔드포인트 호출부터 엔드포인트까지 다음과 같은 메트릭이 포함됩니다.

지표는 1분 간격으로 제공됩니다.

지표 설명
CPUUtilizationNormalized

추론 구성 요소의 각 복사본에서 보고되는 CPUUtilizationNormalized 메트릭 값입니다. 값의 범위는 0% ~ 100% 입니다. 추론 구성 요소 복사본에 대한 설정에서 NumberOfCpuCoresRequired 매개변수를 설정하는 경우 지표는 예약에 대한 사용률을 나타냅니다. 그렇지 않으면 지표에 한도를 초과한 사용률이 표시됩니다.

GPUMemoryUtilizationNormalized

추론 구성 요소의 각 사본에서 보고되는 GPUMemoryUtilizationNormalized 지표의 값입니다.

GPUUtilizationNormalized

추론 구성 요소의 각 사본에서 보고되는 GPUUtilizationNormalized 지표의 값입니다. 추론 구성 요소 복사본의 설정에서 NumberOfAcceleratorDevicesRequired 매개변수를 설정하면 지표는 예약에 대한 사용률을 나타냅니다. 그렇지 않으면 지표에 한도를 초과한 사용률이 표시됩니다.

MemoryUtilizationNormalized

추론 구성 요소의 각 사본에서 MemoryUtilizationNormalized 보고한 값입니다. 추론 구성 요소 복사본의 설정에서 MinMemoryRequiredInMb 파라미터를 설정하는 경우 지표는 예약에 대한 사용률을 나타냅니다. 그렇지 않으면 지표에 한도를 초과한 사용률이 표시됩니다.

추론 구성 요소 지표의 측정기준

측정기준 설명
InferenceComponentName

추론 구성 요소 메트릭을 필터링합니다.

SageMaker 다중 모델 엔드포인트 지표

AWS/SageMaker네임스페이스에는 호출에서 메트릭을 로드하는 다음과 같은 모델 로딩이 포함됩니다. InvokeEndpoint

지표는 1분 간격으로 제공됩니다.

CloudWatch 지표가 보존되는 기간에 대한 자세한 내용은 Amazon CloudWatch API 참조를 참조하십시오 GetMetricStatistics.

다중 모델 엔드포인트 모델 로드 지표

지표 설명
ModelLoadingWaitTime

추론을 수행하기 위해 대상 모델이 다운로드되거나, 로드되거나, 다운로드 및 로드될 때까지 호출 요청이 대기한 시간 간격입니다.

단위: 마이크로초

유효 통계: Average, Sum, Min, Max, Sample Count

ModelUnloadingTime

컨테이너의 UnloadModel API 직접 호출을 통해 모델을 언로드하는 데 걸린 시간 간격입니다.

단위: 마이크로초

유효 통계: Average, Sum, Min, Max, Sample Count

ModelDownloadingTime

Amazon Simple Storage Service(S3)에서 모델을 다운로드하는 데 걸린 시간 간격입니다.

단위: 마이크로초

유효 통계: Average, Sum, Min, Max, Sample Count

ModelLoadingTime

컨테이너의 LoadModel API 직접 호출을 통해 모델을 로드하는 데 걸린 시간 간격입니다.

단위: 마이크로초

유효 통계: Average, Sum, Min, Max, Sample Count

ModelCacheHit

모델이 이미 로드된 다중 모델 엔드포인트로 전송된 InvokeEndpoint 요청 수입니다.

평균 통계는 모델이 이미 로드된 요청의 비율을 보여줍니다.

단위: 없음

유효한 통계: 평균, 합계, 샘플 개수

Dimensions for Multi–Model Endpoint Model Loading Metrics(다중 모델 엔드포인트 모델 로드 지표의 차원)

측정기준 설명
EndpointName, VariantName

지정된 엔드포인트 및 변환의 ProductionVariant에 대한 엔드포인트 호출 지표를 필터링합니다.

/aws/sagemaker/Endpoints네임스페이스에는 호출의 다음 인스턴스 지표가 포함됩니다. InvokeEndpoint

지표는 1분 간격으로 제공됩니다.

CloudWatch 지표가 보존되는 기간에 대한 자세한 내용은 Amazon CloudWatch API 참조를 참조하십시오 GetMetricStatistics.

Multi–Model Endpoint Model Instance Metrics(다중 모델 엔드포인트 모델 인스턴스 지표)

지표 설명
LoadedModelCount

다중 모델 엔드포인트의 컨테이너에 로드된 모델 수입니다. 이 지표는 인스턴스별로 내보내집니다.

1분의 평균 통계는 인스턴스당 로드된 평균 모델 수를 나타냅니다.

합계 통계는 엔드포인트의 모든 인스턴스에 로드된 총 모델 수를 알려줍니다.

모델이 엔드포인트의 여러 컨테이너에 로드될 수 있기 때문에 이 지표가 추적하는 모델은 고유하지 않을 수 있습니다.

단위: 없음

유효 통계: Average, Sum, Min, Max, Sample Count

Dimensions for Multi–Model Endpoint Model Loading Metrics(다중 모델 엔드포인트 모델 로드 지표의 차원)

측정기준 설명
EndpointName, VariantName

지정된 엔드포인트 및 변환의 ProductionVariant에 대한 엔드포인트 호출 지표를 필터링합니다.

SageMaker 작업 및 엔드포인트 지표

/aws/sagemaker/ProcessingJobs, /aws/sagemaker/TrainingJobs, /aws/sagemaker/TransformJobs/aws/sagemaker/Endpoints 네임스페이스에는 훈련 작업 및 엔드포인트 인스턴스에 대한 다음 지표가 포함됩니다.

지표는 1분 간격으로 제공됩니다.

참고

CloudWatch Amazon은 고해상도 사용자 지정 지표를 지원하며 최상의 해상도는 1초입니다. 하지만 해상도가 미세할수록 지표의 수명이 짧아집니다. CloudWatch 1초 주파수 분해능의 경우 CloudWatch 메트릭을 3시간 동안 사용할 수 있습니다. CloudWatch 메트릭의 해상도 및 수명에 대한 자세한 내용은 Amazon CloudWatch API 참조를 참조하십시오 GetMetricStatistics.

작은 정보

훈련 작업을 100밀리초 (0.1초) 까지 세밀한 해상도로 프로파일링하고 언제든지 사용자 지정 분석을 위해 Amazon S3에 교육 지표를 무기한 저장하려는 경우 Amazon Debugger를 사용해 보십시오. SageMaker SageMaker 디버거는 일반적인 학습 문제를 자동으로 감지하는 내장 규칙을 제공합니다. 디버거는 하드웨어 리소스 사용률 문제 (예: CPU, GPU, I/O 병목 현상) 및 비수렴 모델 문제 (예: 과적합, 기울기 소멸, 텐서 폭발) 를 탐지합니다. SageMaker 또한 디버거는 Studio Classic 및 해당 프로파일링 보고서를 통해 시각화를 제공합니다. 디버거 시각화에 대해 알아보려면 디버거 인사이트 대시보드 안내, SageMaker 디버거 프로파일링 보고서 안내 및 SMDebug 클라이언트 라이브러리를 사용한 데이터 분석을 참조하십시오.

처리 작업, 훈련 작업, 배치 변환 작업 및 엔드포인트 인스턴스 지표

지표 설명
CPUReservation

인스턴스의 컨테이너에 예약된 CPU의 합계. 값의 범위는 0% ~ 100% 입니다. 추론 구성 요소 설정에서 NumberOfCpuCoresRequired 파라미터를 사용하여 CPU 예약을 설정합니다. 예를 들어 CPU가 4개이고 예약된 CPU가 2개인 경우 CPUReservation 지표는 50% 입니다.

CPUUtilization 각 개별 CPU 코어 사용률의 합계. 각 코어 범위의 CPU 사용률은 0–100입니다. 예를 들어 CPU가 4개인 경우 CPUUtilization 범위는 0%~400%입니다. 처리 작업의 경우 이 값은 인스턴스에 있는 처리 컨테이너의 CPU 사용률입니다.

훈련 작업의 경우 이 값은 인스턴스에 있는 알고리즘 컨테이너의 CPU 사용률입니다.

배치 변환 작업의 경우 이 값은 인스턴스에 있는 변환 컨테이너의 CPU 사용률입니다.

엔드포인트 변환의 경우 이 값은 인스턴스에 있는 기본 및 보조 컨테이너의 CPU 사용률 총합입니다.

참고

다중 인스턴스 작업의 경우, 각 인스턴스가 CPU 사용률 지표를 보고합니다. 하지만 의 기본 뷰에는 모든 인스턴스의 평균 CPU 사용률이 CloudWatch 표시됩니다.

단위: 백분율

CPUUtilizationNormalized

각 개별 CPU 코어 사용률의 정규화된 합계입니다. 값의 범위는 0% ~ 100% 입니다. 예를 들어 CPU가 4개이고 CPUUtilization 지표가 200% 인 경우 CPUUtilizationNormalized 지표는 50% 입니다.

DiskUtilization

인스턴스의 컨테이너에서 사용하는 디스크 공간의 비율입니다. 이 값 범위는 0%~100%입니다. 배치 변환 작업에는 이 지표가 지원되지 않습니다.

처리 작업의 경우 이 값은 인스턴스에 있는 처리 컨테이너의 디스크 공간 사용률입니다.

훈련 작업의 경우 이 값은 인스턴스에 있는 알고리즘 컨테이너의 디스크 공간 사용률입니다.

엔드포인트 변환의 경우 이 값은 인스턴스에 있는 기본 및 보조 컨테이너의 디스크 공간 사용률 합계입니다.

단위: 백분율

참고

다중 인스턴스 작업의 경우, 각 인스턴스가 디스크 사용률 지표를 보고합니다. 그러나 의 기본 보기에는 모든 인스턴스의 평균 디스크 사용률이 CloudWatch 표시됩니다.

GPUMemoryUtilization

인스턴스의 컨테이너에서 사용하는 GPU 메모리의 비율(%)입니다. 값 범위는 0~100이고, GPU의 수를 곱합니다. 예를 들어 GPU가 4개인 경우 GPUMemoryUtilization 범위는 0%~400%입니다.

처리 작업의 경우 이 값은 인스턴스에 있는 처리 컨테이너의 GPU 메모리 사용률입니다.

훈련 작업의 경우 이 값은 인스턴스에 있는 알고리즘 컨테이너의 GPU 메모리 사용률입니다.

배치 변환 작업의 경우 이 값은 인스턴스에 있는 변환 컨테이너의 GPU 메모리 사용률입니다.

엔드포인트 변환의 경우 이 값은 인스턴스에 있는 기본 및 보조 컨테이너의 GPU 메모리 사용률 총합입니다.

참고

다중 인스턴스 작업의 경우, 각 인스턴스가 GPU 메모리 사용률 지표를 보고합니다. 하지만 의 기본 보기에는 모든 인스턴스의 평균 GPU 메모리 사용률이 CloudWatch 표시됩니다.

단위: 백분율

GPUMemoryUtilizationNormalized

인스턴스의 컨테이너가 사용하는 GPU 메모리의 정규화된 비율입니다. 값의 범위는 0% ~ 100% 입니다. 예를 들어 GPU가 4개이고 GPUMemoryUtilization 지표가 200% 인 경우 GPUMemoryUtilizationNormalized 지표는 50% 입니다.

GPUReservation

인스턴스의 컨테이너가 예약한 GPU의 합계. 값의 범위는 0% ~ 100% 입니다. 추론 구성 요소 설정에서 GPU 예약을 기준으로 설정합니다. NumberOfAcceleratorDevicesRequired 예를 들어 GPU가 4개이고 예약된 GPU가 2개인 경우 GPUReservation 지표는 50% 입니다.

GPUUtilization

인스턴스의 컨테이너에서 사용하는 GPU 유닛의 비율(%)입니다. 값의 범위는 0—100 사이일 수 있으며 GPU 수를 곱합니다. 예를 들어 GPU가 4개인 경우 GPUUtilization 범위는 0%~400%입니다.

처리 작업의 경우 이 값은 인스턴스에 있는 처리 컨테이너의 GPU 사용률입니다.

훈련 작업의 경우 이 값은 인스턴스에 있는 알고리즘 컨테이너의 GPU 사용률입니다.

배치 변환 작업의 경우 이 값은 인스턴스에 있는 변환 컨테이너의 GPU 사용률입니다.

엔드포인트 변환의 경우 이 값은 인스턴스에 있는 기본 및 보조 컨테이너의 GPU 사용률 총합입니다.

참고

다중 인스턴스 작업의 경우, 각 인스턴스가 GPU 사용률 지표를 보고합니다. 하지만 의 기본 보기에는 모든 인스턴스의 평균 GPU 사용률이 CloudWatch 표시됩니다.

단위: 백분율

GPUUtilizationNormalized

인스턴스의 컨테이너에서 사용하는 GPU 단위의 정규화된 비율입니다. 값의 범위는 0% ~ 100% 입니다. 예를 들어 GPU가 4개이고 GPUUtilization 지표가 200% 인 경우 GPUUtilizationNormalized 지표는 50% 입니다.

MemoryReservation

인스턴스에 컨테이너가 예약한 메모리의 합계. 값의 범위는 0% ~ 100% 입니다. 추론 구성 요소 설정에서 MinMemoryRequiredInMb 파라미터를 사용하여 메모리 예약을 설정합니다. 예를 들어 32GiB 인스턴스가 1024MB를 예약한 경우 MemoryReservation 측정치는 29.8% 입니다.

MemoryUtilization

인스턴스의 컨테이너에서 사용하는 메모리의 비율(%)입니다. 이 값 범위는 0%~100%입니다.

처리 작업의 경우 이 값은 인스턴스에 있는 처리 컨테이너의 메모리 사용률입니다.

훈련 작업의 경우 이 값은 인스턴스에 있는 알고리즘 컨테이너의 메모리 사용률입니다.

배치 변환 작업의 경우 이 값은 인스턴스에 있는 변환 컨테이너의 메모리 사용률입니다.

엔드포인트 변환의 경우 이 값은 인스턴스에 있는 기본 및 보조 컨테이너의 메모리 사용률 총합입니다.

단위: 백분율

참고

다중 인스턴스 작업의 경우, 각 인스턴스가 메모리 사용률 지표를 보고합니다. 하지만 의 기본 보기에는 모든 인스턴스의 평균 메모리 사용률이 CloudWatch 표시됩니다.

처리 작업, 훈련 작업 및 배치 변환 작업 인스턴스 지표의 차원

측정기준 설명
Host

처리 작업의 경우 이 차원의 값은 [processing-job-name]/algo-[instance-number-in-cluster] 형식입니다. 이 차원을 사용하여 지정된 처리 작업 및 인스턴스에 대한 인스턴스 지표를 필터링합니다. 이 차원 형식은 /aws/sagemaker/ProcessingJobs 네임스페이스에서만 표시됩니다.

훈련 작업의 경우 이 차원의 값은 [training-job-name]/algo-[instance-number-in-cluster] 형식입니다. 이 차원을 사용하여 지정된 훈련 작업 및 인스턴스에 대한 인스턴스 지표를 필터링합니다. 이 차원 형식은 /aws/sagemaker/TrainingJobs 네임스페이스에서만 표시됩니다.

배치 변환 작업의 경우 이 차원의 값은 [transform-job-name]/[instance-id] 형식입니다. 이 차원을 사용하여 지정된 배치 변환 작업 및 인스턴스에 대한 인스턴스 지표를 필터링합니다. 이 차원 형식은 /aws/sagemaker/TransformJobs 네임스페이스에서만 표시됩니다.

SageMaker 추론 추천자 작업 지표

/aws/sagemaker/InferenceRecommendationsJobs 네임스페이스에는 추론 추천 작업에 대한 다음 지표가 포함됩니다.

추론 추천 지표

지표 설명
ClientInvocations

추론 추천에서 관찰한 모델 엔드포인트로 전송된 InvokeEndpoint 요청 수입니다.

단위: 없음

유효 통계: Sum

ClientInvocationErrors

추론 추천에서 관찰한 실패한 InvokeEndpoint 요청 수입니다.

단위: 없음

유효 통계: Sum

ClientLatency

추론 추천에서 관찰한 InvokeEndpoint 호출 발신 후 응답 수신까지 걸린 시간 간격. 참고로 시간은 밀리초 단위인 반면 ModelLatency 엔드포인트 호출 지표는 마이크로초 단위입니다.

단위: 밀리초

유효 통계: Average, Sum, Min, Max, Sample Count, Percentiles

NumberOfUsers

모델 엔드포인트에 InvokeEndpoint 요청을 보내는 동시 사용자 수입니다.

단위: 없음

유효 통계: Max, Min, Average

추론 추천 작업 지표의 차원

측정기준 설명
JobName

지정된 추론 추천 작업에 대한 추론 추천 작업 지표를 필터링합니다.

EndpointName

지정된 엔드포인트에 대한 추론 추천 작업 지표를 필터링합니다.

SageMaker Ground Truth 메트릭스

Ground Truth 지표

지표 설명
ActiveWorkers

작업을 제출, 공개 또는 거부한 프라이빗 작업팀의 활성 작업자 한 명. 총 활성 작업자 수를 구하려면 Sum(합계) 통계를 사용하세요. Ground Truth는 각 개별 ActiveWorkers 이벤트를 한 번 전달하려고 합니다. 전달이 실패할 경우 이 지표에 총 활성 작업자 수가 반영되지 않을 수 있습니다

단위: 없음

유효한 통계: Sum, Sample Count

DatasetObjectsAutoAnnotated

레이블 지정 작업에서 자동으로 주석이 추가되는 데이터 세트 객체의 수입니다. 이 지표는 자동화 레이블 지정 작업을 활성화한 경우에만 방출됩니다. 레이블 지정 작업 진행 상황을 보려면 Max 지표를 사용합니다.

단위: 없음

유효한 통계: Max

DatasetObjectsHumanAnnotated

레이블 지정 작업에서 사람이 주석을 추가한 데이터 세트 객체의 수입니다. 레이블 지정 작업 진행 상황을 보려면 Max 지표를 사용합니다.

단위: 없음

유효한 통계: Max

DatasetObjectsLabelingFailed

레이블 지정 작업에서 레이블 지정에 실패한 데이터 세트 객체의 수입니다. 레이블 지정 작업 진행 상황을 보려면 Max 지표를 사용합니다.

단위: 없음

유효한 통계: Max

JobsFailed

단일 레이블 지정 작업이 실패했습니다. 실패한 총 레이블 지정 작업 수를 가져오려면 Sum(합계) 통계를 사용합니다.

단위: 없음

유효한 통계: Sum, Sample Count

JobsSucceeded

단일 레이블 지정 작업이 성공했습니다. 성공한 총 레이블 지정 작업의 수를 가져오려면 Sum 통계를 사용합니다.

단위: 없음

유효한 통계: Sum, Sample Count

JobsStopped

단일 레이블 지정 작업이 중단되었습니다. 중지된 총 레이블 지정 작업 수를 가져오려면 Sum 통계를 사용합니다.

단위: 없음

유효한 통계: Sum, Sample Count

TasksAccepted

한 작업자가 단일 작업을 수락했습니다. 작업자가 수락한 총 작업 수를 구하려면 Sum(합계) 통계를 사용하세요. Ground Truth는 각 개별 TaskAccepted 이벤트를 한 번 전달하려고 합니다. 전달이 실패할 경우 이 지표에 총 수락한 작업 수가 반영되지 않을 수 있습니다.

단위: 없음

유효한 통계: Sum, Sample Count

TasksDeclined

한 작업자가 단일 작업을 거부했습니다. 작업자가 거부한 총 작업 수를 구하려면 Sum(합계) 통계를 사용하세요. Ground Truth는 각 개별 TasksDeclined 이벤트를 한 번 전달하려고 합니다. 전달이 실패할 경우 이 지표에 총 거부한 작업 수가 반영되지 않을 수 있습니다.

단위: 없음

유효한 통계: Sum, Sample Count

TasksReturned

단일 작업이 반환되었습니다. 반환된 총 작업 수를 구하려면 Sum(합계) 통계를 사용하세요. Ground Truth는 각 개별 TasksReturned 이벤트를 한 번 전달하려고 합니다. 전달이 실패할 경우 이 지표에 총 반환된 작업 수가 반영되지 않을 수 있습니다.

단위: 없음

유효한 통계: Sum, Sample Count

TasksSubmitted

프라이빗 작업자가 단일 작업을 제출/완료했습니다. 작업자가 제출한 총 작업 수를 구하려면 Sum(합계) 통계를 사용하세요. Ground Truth는 각 개별 TasksSubmitted 이벤트를 한 번 전달하려고 합니다. 전달이 실패할 경우 이 지표에 총 제출된 작업 수가 반영되지 않을 수 있습니다.

단위: 없음

유효한 통계: Sum, Sample Count

TimeSpent

프라이빗 작업자가 완료한 작업에 소요된 시간입니다. 작업자가 일시 중지하거나 휴식을 취한 시간은 이 지표에 포함되지 않습니다. Ground Truth는 각 TimeSpent 이벤트를 한 번 전달하려고 합니다. 전달이 실패할 경우 이 지표에 총 소비 시간이 반영되지 않을 수 있습니다.

단위: 초

유효한 통계: Sum, Sample Count

TotalDatasetObjectsLabeled

레이블 지정 작업에서 성공적으로 레이블이 지정된 데이터 세트 객체의 수입니다. 레이블 지정 작업 진행 상황을 보려면 Max 지표를 사용합니다.

단위: 없음

유효한 통계: Max

Dimensions for Dataset Object Metrics(데이터 세트 객체 지표의 차원)

측정기준 설명
LabelingJobName

레이블 지정 작업에 대한 데이터 세트 객체 수 지표를 필터링합니다.

Amazon SageMaker 피처 스토어 지표

특성 스토어 소비 지표

지표 설명
ConsumedReadRequestsUnits

지정한 시간 동안 소비한 읽기 단위의 수. 특성 스토어 런타임 작업 및 해당 특성 그룹에 사용된 읽기 단위를 검색할 수 있습니다.

단위: 없음

유효한 통계: All

ConsumedWriteRequestsUnits

지정한 시간 동안 소비한 쓰기 단위의 수. 특성 스토어 런타임 작업 및 해당 특성 그룹에 사용된 쓰기 단위를 검색할 수 있습니다.

단위: 없음

유효한 통계: All

ConsumedReadCapacityUnits

지정된 기간 동안 소비된 프로비저닝된 읽기 용량 단위 수입니다. Feature Store 런타임 작업 및 해당 기능 그룹에 사용된 읽기 용량 단위를 검색할 수 있습니다.

단위: 없음

유효한 통계: All

ConsumedWriteCapacityUnits

지정된 기간 동안 사용된 프로비저닝된 쓰기 용량 단위 수입니다. Feature Store 런타임 작업 및 해당 기능 그룹에 사용된 쓰기 용량 단위를 검색할 수 있습니다.

단위: 없음

유효한 통계: All

특성 스토어 소비 지표 차원

측정기준 설명
FeatureGroupName, OperationName

지정한 특성 그룹 및 작업의 특성 스토어 런타임 소비 지표를 필터링합니다.

특성 스토어 운영 지표

지표 설명
Invocations

지정된 기간 동안 특성 스토어 런타임 작업에 수행된 요청 수입니다.

단위: 없음

유효 통계: Sum

Operation4XXErrors

작업이 4xx HTTP 응답 코드를 반환한 특성 스토어 런타임 작업에 이루어진 요청 수입니다. 각 4xx 응답에서 1이 전송되고, 그 외의 경우에는 0이 전송됩니다.

단위: 없음

유효한 통계: Average, Sum

Operation5XXErrors

작업이 5xx HTTP 응답 코드를 반환한 특성 스토어 런타임 작업에 이루어진 요청 수입니다. 각 5xx 응답에서 1이 전송되고, 그 외의 경우에는 0이 전송됩니다.

단위: 없음

유효한 통계: Average, Sum

ThrottledRequests

특성 스토어 런타임 작업에 요청되었으나 조절을 받은 요청 수입니다. 조절을 받은 각 요청에는 1이 전송되고, 그렇지 않으면 0이 전송됩니다.

단위: 없음

유효한 통계: Average, Sum

Latency

특성 스토어 런타임 작업에의 요청을 처리하는 시간 간격입니다. 이 간격은 요청을 SageMaker 수신한 시간부터 클라이언트에 응답을 반환할 때까지 측정됩니다.

단위: 마이크로초

유효 통계: Average, Sum, Min, Max, Sample Count, Percentiles

특성 스토어 운영 지표 차원

측정기준 설명

FeatureGroupName, OperationName

지정한 특성 그룹 및 작업의 특성 스토어 런타임 운영 지표를 필터링합니다. 이러한 차원은, GetRecord PutRecord, 등의 비배치 작업에 사용할 수 DeleteRecord 있습니다.
OperationName

지정한 작업의 특성 스토어 런타임 운영 지표를 필터링합니다. 이 차원은 다음과 같은 일괄 작업에 사용할 수 BatchGetRecord 있습니다.

SageMaker 파이프라인 지표

AWS/Sagemaker/ModelBuildingPipeline 네임스페이스에는 파이프라인 실행에 대한 다음 지표가 포함되어 있습니다.

파이프라인 실행 지표에는 두 가지 범주가 있습니다.

  • 모든 파이프라인의 실행 지표 - 계정 수준 파이프라인 실행 지표 (현재 계정의 모든 파이프라인)

  • 파이프라인별 실행 지표 - 파이프라인별 파이프라인 실행 지표

지표는 1분 간격으로 제공됩니다.

파이프라인 실행 지표

지표 설명
ExecutionStarted

시작된 파이프라인 실행 수입니다.

단위: 개

유효한 통계: Average, Sum

ExecutionFailed

실패한 파이프라인 실행 수입니다.

단위: 개

유효한 통계: Average, Sum

ExecutionSucceeded

성공한 파이프라인 실행 수입니다.

단위: 개

유효한 통계: Average, Sum

ExecutionStopped

중지된 파이프라인 실행 수입니다.

단위: 개

유효한 통계: Average, Sum

ExecutionDuration

파이프라인이 실행된 기간 (밀리초).

단위: 밀리초

유효 통계: Average, Sum, Min, Max, Sample Count

파이프라인별 실행 지표 차원

측정기준 설명
PipelineName

지정된 파이프라인의 파이프라인 실행 지표를 필터링합니다.

파이프라인 단계 지표

AWS/Sagemaker/ModelBuildingPipeline 네임스페이스에는 파이프라인 단계에 대한 다음 지표가 포함되어 있습니다.

지표는 1분 간격으로 제공됩니다.

지표 설명
StepStarted

시작된 단계의 수입니다.

단위: 개

유효한 통계: Average, Sum

StepFailed

실패한 단계의 수입니다.

단위: 개

유효한 통계: Average, Sum

StepSucceeded

성공한 단계의 수입니다.

단위: 개

유효한 통계: Average, Sum

StepStopped

중지된 단계의 수입니다.

단위: 개

유효한 통계: Average, Sum

StepDuration

단계가 실행된 기간 (밀리초).

단위: 밀리초

유효 통계: Average, Sum, Min, Max, Sample Count

파이프라인 단계 지표의 차원

측정기준 설명
PipelineName, StepName

지정된 파이프라인 및 단계의 단계 지표를 필터링합니다.