Amazon SageMaker 에서 Amazon을 모니터링하기 위한 지표 CloudWatch - Amazon SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon SageMaker 에서 Amazon을 모니터링하기 위한 지표 CloudWatch

원시 데이터를 CloudWatch수집하고 읽기 가능한 실시간에 가까운 지표로 처리하는 Amazon 를 SageMaker 사용하여 Amazon을 모니터링할 수 있습니다. 이러한 통계는 15개월 동안 유지됩니다. 이를 통해 과거 정보에 액세스하고 웹 애플리케이션 또는 서비스의 성능에 대한 더 나은 관점을 얻을 수 있습니다. 하지만 Amazon CloudWatch 콘솔은 검색을 지난 2주 동안 업데이트된 지표로 제한합니다. 이 제한은 가장 최신 작업이 네임스페이스에 표시되도록 보장합니다.

검색을 사용하지 않고 지표를 그래프로 표시하려면 소스 보기에서 지표의 정확한 이름을 지정합니다. 특정 임계값을 주시하다가 해당 임계값이 충족될 때 알림을 전송하거나 조치를 취하도록 경보를 설정할 수도 있습니다. 자세한 내용은 Amazon CloudWatch 사용 설명서 섹션을 참조하세요.

SageMaker 엔드포인트 호출 지표

AWS/SageMaker 네임스페이스에는 에 대한 호출의 다음과 같은 요청 지표가 InvokeEndpoint포함됩니다.

지표는 1분 간격으로 제공됩니다.

다음 그림은 SageMaker 엔드포인트가 Amazon SageMaker 런타임 와 상호 작용하는 방식을 보여줍니다API. 엔드포인트로 요청을 보내고 응답을 받는 데 걸리는 전체 시간은 다음 세 가지 구성 요소에 따라 달라집니다.

  • 네트워크 지연 시간 - 에 요청을 하고 SageMaker 런타임 런타임 에서 응답을 수신하는 데 걸리는 시간입니다API.

  • 오버헤드 지연 시간 - 요청을 에서 모델 컨테이너로 전송하고 응답을 SageMaker 런타임 로 다시 전송하는 데 걸리는 시간입니다API.

  • 모델 지연 시간(Model latency) - 모델 컨테이너가 요청을 처리하고 응답을 반환하는 데 걸리는 시간입니다.

총 지연 시간(total latency)이 네트워크, 오버헤드 및 모델 지연 시간의 합계임을 보여주는 그림.

총 지연 시간에 대한 자세한 내용은 Amazon SageMaker 실시간 추론 엔드포인트 로드 테스트 모범 사례 섹션을 참조하세요. CloudWatch 지표가 보존되는 기간에 대한 자세한 내용은 Amazon 참조GetMetricStatistics의 섹션을 참조하세요. CloudWatch API

Endpoint Invocation Metric(엔드포인트 호출 지표)

지표 설명
ConcurrentRequestsPerCopy

추론 구성 요소의 각 복사본으로 정규화된 추론 구성 요소가 수신한 동시 요청 수입니다.

유효한 통계: 최소, 최대

ConcurrentRequestsPerModel

모델에서 수신 중인 동시 요청 수입니다.

유효한 통계: 최소, 최대

Invocation4XXErrors

모델이 4xx HTTP 응답 코드를 반환한 InvokeEndpoint 요청 수입니다. 각 4xx 응답에서 1이 전송되고, 그 외의 경우에는 0이 전송됩니다.

단위: 없음

유효한 통계: Average, Sum

Invocation5XXErrors

모델이 5xx HTTP 응답 코드를 반환한 InvokeEndpoint 요청 수입니다. 각 5xx 응답에서 1이 전송되고, 그 외의 경우에는 0이 전송됩니다.

단위: 없음

유효한 통계: Average, Sum

InvocationModelErrors

2XX HTTP 응답을 생성하지 않은 모델 호출 요청 수입니다. 여기에는 4XX/5XX 상태 코드, 하위 수준 소켓 오류, 잘못된 HTTP 응답 및 요청 제한 시간이 포함됩니다. 각 오류 응답에 대해 1이 전송되고, 그 외의 경우에는 0이 전송됩니다.

단위: 없음

유효한 통계: Average, Sum

Invocations

모델 엔드포인트에 전송된 InvokeEndpoint 요청의 수입니다.

모델 엔드포인트에 전송된 총 요청 수를 가져오려면 Sum 통계를 사용합니다.

단위: 없음

유효 통계: Sum

InvocationsPerCopy

추론 구성 요소의 각 복사본별로 정규화된 호출 수입니다.

유효 통계: Sum

InvocationsPerInstance

모델로 전송된 호출 수로, 각 InstanceCount 에서 로 정규화 ProductionVariant됩니다. 1/numberOfInstances은 각 요청의 값으로 전송됩니다. numberOfInstances는 요청 시 엔드포인트 ProductionVariant 뒤에 있는 의 활성 인스턴스 수입니다.

단위: 없음

유효 통계: Sum

ModelLatency

SageMaker 런타임 API 요청에 응답하기 위해 모델이 소요한 시간 간격입니다. 이 간격에는 요청을 보내고 모델 컨테이너에서 응답을 가져오는 데 걸리는 로컬 통신 시간이 포함됩니다. 또한 컨테이너에서 추론을 완료하는 데 걸리는 시간도 포함됩니다.

단위: 마이크로초

유효 통계: Average, Sum, Min, Max, Sample Count

ModelSetupTime

서버리스 엔드포인트를 위해 새 컴퓨팅 리소스를 시작하는 데 걸리는 시간입니다. 시간은 모델 크기, 모델 다운로드에 걸리는 시간, 컨테이너의 시작 시간에 따라 달라집니다.

단위: 마이크로초

유효 통계: Average, Min, Max, Sample Count, Percentiles

OverheadLatency

SageMaker 오버헤드로 클라이언트 요청에 응답하는 데 걸리는 시간에 추가된 시간 간격입니다. 이 간격은 가 요청을 SageMaker 수신한 시점부터 클라이언트에 응답을 반환할 때까지 에서 를 뺀 값으로 측정됩니다ModelLatency. 오버헤드 지연 시간은 요청 및 응답 페이로드 크기, 요청 빈도, 요청의 인증/권한 부여 등을 포함한 여러 요인에 따라 다를 수 있습니다.

단위: 마이크로초

유효 통계: Average, Sum, Min, Max, Sample Count

엔드포인트 호출 지표의 차원

측정기준 설명
EndpointName, VariantName

지정된 엔드포인트 및 변환의 ProductionVariant에 대한 엔드포인트 호출 지표를 필터링합니다.

InferenceComponentName

추론 구성 요소 호출 지표를 필터링합니다.

SageMaker 추론 구성 요소 지표

/aws/sagemaker/InferenceComponents 네임스페이스에는 추론 구성 요소를 호스팅하는 엔드포인트에 InvokeEndpoint 대한 에 대한 호출의 다음 지표가 포함됩니다.

지표는 1분 간격으로 제공됩니다.

지표 설명
CPUUtilizationNormalized

추론 구성 요소의 각 복사본에서 보고된 CPUUtilizationNormalized 지표의 값입니다. 값 범위는 0%~100%입니다. 추론 구성 요소 복사의 설정에서 NumberOfCpuCoresRequired 파라미터를 설정하면 지표는 예약에 대한 사용률을 표시합니다. 그렇지 않으면 지표가 한도를 초과하는 사용률을 표시합니다.

GPUMemoryUtilizationNormalized

추론 구성 요소의 각 복사본에서 보고된 GPUMemoryUtilizationNormalized 지표의 값입니다.

GPUUtilizationNormalized

추론 구성 요소의 각 복사본에서 보고된 GPUUtilizationNormalized 지표의 값입니다. 추론 구성 요소 복사의 설정에서 NumberOfAcceleratorDevicesRequired 파라미터를 설정하면 지표는 예약에 대한 사용률을 표시합니다. 그렇지 않으면 지표가 한도를 초과하는 사용률을 표시합니다.

MemoryUtilizationNormalized

추론 구성 요소의 각 복사본에서 MemoryUtilizationNormalized 보고된 값입니다. 추론 구성 요소 복사의 설정에서 MinMemoryRequiredInMb 파라미터를 설정하면 지표가 예약에 대한 사용률을 표시합니다. 그렇지 않으면 지표는 한도를 초과하는 사용률을 나타냅니다.

추론 구성 요소 지표의 차원

측정기준 설명
InferenceComponentName

추론 구성 요소 지표를 필터링합니다.

SageMaker 다중 모델 엔드포인트 지표

AWS/SageMaker 네임스페이스에는 에 대한 호출의 다음과 같은 모델 로드 지표가 InvokeEndpoint포함됩니다.

지표는 1분 간격으로 제공됩니다.

CloudWatch 지표가 보존되는 기간에 대한 자세한 내용은 Amazon 참조GetMetricStatistics의 섹션을 참조하세요. CloudWatch API

다중 모델 엔드포인트 모델 로드 지표

지표 설명
ModelLoadingWaitTime

추론을 실행하기 위해 호출 요청이 대상 모델이 다운로드, 로드 또는 둘 다를 기다린 시간 간격입니다.

단위: 마이크로초

유효 통계: Average, Sum, Min, Max, Sample Count

ModelUnloadingTime

컨테이너의 UnloadModel API 호출을 통해 모델을 언로드하는 데 걸린 시간 간격입니다.

단위: 마이크로초

유효 통계: Average, Sum, Min, Max, Sample Count

ModelDownloadingTime

Amazon Simple Storage Service(S3)에서 모델을 다운로드하는 데 걸린 시간 간격입니다.

단위: 마이크로초

유효 통계: Average, Sum, Min, Max, Sample Count

ModelLoadingTime

컨테이너의 LoadModel API 호출을 통해 모델을 로드하는 데 걸린 시간 간격입니다.

단위: 마이크로초

유효 통계: Average, Sum, Min, Max, Sample Count

ModelCacheHit

모델이 이미 로드된 다중 모델 엔드포인트로 전송된 InvokeEndpoint 요청 수입니다.

평균 통계는 모델이 이미 로드된 요청의 비율을 보여줍니다.

단위: 없음

유효한 통계: 평균, 합계, 샘플 개수

Dimensions for Multi–Model Endpoint Model Loading Metrics(다중 모델 엔드포인트 모델 로드 지표의 차원)

측정기준 설명
EndpointName, VariantName

지정된 엔드포인트 및 변환의 ProductionVariant에 대한 엔드포인트 호출 지표를 필터링합니다.

/aws/sagemaker/Endpoints 네임스페이스에는 에 대한 호출의 다음 인스턴스 지표가 InvokeEndpoint포함됩니다.

지표는 1분 간격으로 제공됩니다.

CloudWatch 지표가 보존되는 기간에 대한 자세한 내용은 Amazon 참조GetMetricStatistics의 섹션을 참조하세요. CloudWatch API

Multi–Model Endpoint Model Instance Metrics(다중 모델 엔드포인트 모델 인스턴스 지표)

지표 설명
LoadedModelCount

다중 모델 엔드포인트의 컨테이너에 로드된 모델 수입니다. 이 지표는 인스턴스별로 내보내집니다.

1분의 평균 통계는 인스턴스당 로드된 평균 모델 수를 나타냅니다.

합계 통계는 엔드포인트의 모든 인스턴스에 로드된 총 모델 수를 알려줍니다.

모델이 엔드포인트의 여러 컨테이너에 로드될 수 있기 때문에 이 지표가 추적하는 모델은 고유하지 않을 수 있습니다.

단위: 없음

유효 통계: Average, Sum, Min, Max, Sample Count

Dimensions for Multi–Model Endpoint Model Loading Metrics(다중 모델 엔드포인트 모델 로드 지표의 차원)

측정기준 설명
EndpointName, VariantName

지정된 엔드포인트 및 변환의 ProductionVariant에 대한 엔드포인트 호출 지표를 필터링합니다.

SageMaker 작업 및 엔드포인트 지표

/aws/sagemaker/ProcessingJobs, /aws/sagemaker/TrainingJobs/aws/sagemaker/TransformJobs, 및 /aws/sagemaker/Endpoints 네임스페이스에는 훈련 작업 및 엔드포인트 인스턴스에 대한 다음 지표가 포함됩니다.

지표는 1분 간격으로 제공됩니다.

참고

Amazon은 고해상도 사용자 지정 지표를 CloudWatch 지원하며 최상의 해상도는 1초입니다. 하지만 해상도가 작을수록 CloudWatch 지표의 수명이 짧아집니다. 1초 주파수 해상도의 경우 CloudWatch 지표를 3시간 동안 사용할 수 있습니다. CloudWatch 지표의 해상도 및 수명에 대한 자세한 내용은 Amazon 참조GetMetricStatistics의 섹션을 참조하세요. CloudWatch API

작은 정보

훈련 작업을 100밀리초(0.1초) 단위로 세분화하여 프로파일링하고 언제든지 사용자 지정 분석을 위해 훈련 지표를 Amazon S3에 무기한 저장하려면 Amazon SageMaker Debugger 를 사용하는 것이 좋습니다. SageMaker Debugger는 일반적인 훈련 문제를 자동으로 감지하는 기본 제공 규칙을 제공합니다. 하드웨어 리소스 사용률 문제(예: CPU, GPU및 I/O 병목 현상)를 감지합니다. 또한 수렴되지 않는 모델 문제(예: 과적합, 퇴색 그라데이션, 텐서 폭발)도 감지합니다. SageMaker 또한 Debugger는 Studio Classic 및 프로파일링 보고서를 통해 시각화를 제공합니다. Debugger 시각화를 탐색하려면 SageMaker Debugger Insights Dashboard Walkthrough , Debugger Profiling Report Walkthrough 및 SMDebug 클라이언트 라이브러리를 사용하여 데이터 분석을 참조하세요.

처리 작업, 훈련 작업, 배치 변환 작업 및 엔드포인트 인스턴스 지표

지표 설명
CPUReservation

인스턴스의 컨테이너에서 CPUs 예약한 의 합계입니다. 값 범위는 0%~100%입니다. 추론 구성 요소의 설정에서 NumberOfCpuCoresRequired 파라미터로 CPU 예약을 설정합니다. 예를 들어CPUs, 가 4이고 가 2인 경우 CPUReservation 지표는 50%입니다.

CPUUtilization 각 개별 CPU 코어의 사용률 합계입니다. 각 코어 범위의 CPU 사용률은 0~100입니다. 예를 들어 가 4개인 경우 CPUs CPUUtilization 범위는 0%–400%입니다. 처리 작업의 경우 값은 인스턴스의 처리 컨테이너 CPU 사용률입니다.

훈련 작업의 경우 값은 인스턴스의 알고리즘 컨테이너 CPU 사용률입니다.

배치 변환 작업의 경우 값은 인스턴스의 변환 컨테이너 CPU 사용률입니다.

엔드포인트 변형의 경우 값은 인스턴스의 기본 및 보조 컨테이너 CPU 사용률의 합계입니다.

참고

다중 인스턴스 작업의 경우 각 인스턴스는 CPU 사용률 지표를 보고합니다. 그러나 의 기본 보기는 모든 인스턴스의 평균 CPU 사용률을 CloudWatch 보여줍니다.

단위: 백분율

CPUUtilizationNormalized

각 개별 CPU 코어의 사용률의 정규화된 합계입니다. 값 범위는 0%~100%입니다. 예를 들어 가 4CPUs개이고 CPUUtilization 지표가 200%인 경우 CPUUtilizationNormalized 지표는 50%입니다.

DiskUtilization

인스턴스의 컨테이너에서 사용하는 디스크 공간의 비율입니다. 이 값 범위는 0%~100%입니다. 배치 변환 작업에는 이 지표가 지원되지 않습니다.

처리 작업의 경우 이 값은 인스턴스에 있는 처리 컨테이너의 디스크 공간 사용률입니다.

훈련 작업의 경우 이 값은 인스턴스에 있는 알고리즘 컨테이너의 디스크 공간 사용률입니다.

엔드포인트 변환의 경우 이 값은 인스턴스에 있는 기본 및 보조 컨테이너의 디스크 공간 사용률 합계입니다.

단위: 백분율

참고

다중 인스턴스 작업의 경우, 각 인스턴스가 디스크 사용률 지표를 보고합니다. 그러나 의 기본 보기는 모든 인스턴스의 평균 디스크 사용률을 CloudWatch 보여줍니다.

GPUMemoryUtilization

인스턴스의 컨테이너에서 사용하는 GPU 메모리의 백분율입니다. 값 범위는 0~100이며 의 수를 곱합니다GPUs. 예를 들어 가 4개인 경우 GPUs GPUMemoryUtilization 범위는 0%–400%입니다.

처리 작업의 경우 값은 인스턴스에서 처리 컨테이너의 GPU 메모리 사용률입니다.

훈련 작업의 경우 값은 인스턴스에서 알고리즘 컨테이너의 GPU 메모리 사용률입니다.

배치 변환 작업의 경우 값은 인스턴스에서 변환 컨테이너의 GPU 메모리 사용률입니다.

엔드포인트 변형의 경우 값은 인스턴스의 기본 및 보조 컨테이너의 GPU 메모리 사용률 합계입니다.

참고

다중 인스턴스 작업의 경우 각 인스턴스는 GPU 메모리 사용률 지표를 보고합니다. 그러나 의 기본 보기는 모든 인스턴스의 평균 GPU 메모리 사용률을 CloudWatch 보여줍니다.

단위: 백분율

GPUMemoryUtilizationNormalized

인스턴스의 컨테이너에서 사용하는 GPU 메모리의 정규화된 백분율입니다. 값 범위는 0%~100%입니다. 예를 들어 가 4GPUs개이고 GPUMemoryUtilization 지표가 200%인 경우 GPUMemoryUtilizationNormalized 지표는 50%입니다.

GPUReservation

인스턴스의 컨테이너로 GPUs 예약된 의 합계입니다. 값 범위는 0%~100%입니다. 추론 구성 요소에 대한 설정에서 GPU 예약을 로 설정합니다NumberOfAcceleratorDevicesRequired. 예를 들어 4GPUs와 2가 예약되어 있는 경우 GPUReservation 지표는 50%입니다.

GPUUtilization

인스턴스의 컨테이너에서 사용하는 GPU 단위의 백분율입니다. 값은 0~100 범위일 수 있으며 의 수를 곱합니다GPUs. 예를 들어 가 4개인 경우 GPUs GPUUtilization 범위는 0%~400%입니다.

처리 작업의 경우 값은 인스턴스의 처리 컨테이너 GPU 사용률입니다.

훈련 작업의 경우 값은 인스턴스의 알고리즘 컨테이너 GPU 사용률입니다.

배치 변환 작업의 경우 값은 인스턴스의 변환 컨테이너 GPU 사용률입니다.

엔드포인트 변형의 경우 값은 인스턴스의 기본 및 보조 컨테이너 GPU 사용률의 합계입니다.

참고

다중 인스턴스 작업의 경우 각 인스턴스는 GPU 사용률 지표를 보고합니다. 그러나 의 기본 보기는 모든 인스턴스의 평균 GPU 사용률을 CloudWatch 보여줍니다.

단위: 백분율

GPUUtilizationNormalized

인스턴스의 컨테이너에서 사용하는 GPU 단위의 정규화된 백분율입니다. 값 범위는 0%~100%입니다. 예를 들어 가 4GPUs개이고 GPUUtilization 지표가 200%인 경우 GPUUtilizationNormalized 지표는 50%입니다.

MemoryReservation

인스턴스의 컨테이너에서 예약한 메모리의 합계입니다. 값 범위는 0%~100%입니다. 추론 구성 요소에 대한 설정에서 MinMemoryRequiredInMb 파라미터로 메모리 예약을 설정합니다. 예를 들어, 32GiB 인스턴스가 1024MB로 예약된 경우 MemoryReservation 지표는 29.8%입니다.

MemoryUtilization

인스턴스의 컨테이너에서 사용하는 메모리의 비율(%)입니다. 이 값 범위는 0%~100%입니다.

처리 작업의 경우 이 값은 인스턴스에 있는 처리 컨테이너의 메모리 사용률입니다.

훈련 작업의 경우 이 값은 인스턴스에 있는 알고리즘 컨테이너의 메모리 사용률입니다.

배치 변환 작업의 경우 이 값은 인스턴스에 있는 변환 컨테이너의 메모리 사용률입니다.

엔드포인트 변환의 경우 이 값은 인스턴스에 있는 기본 및 보조 컨테이너의 메모리 사용률 총합입니다.

단위: 백분율

참고

다중 인스턴스 작업의 경우, 각 인스턴스가 메모리 사용률 지표를 보고합니다. 그러나 의 기본 보기는 모든 인스턴스의 평균 메모리 사용률을 CloudWatch 보여줍니다.

처리 작업, 훈련 작업 및 배치 변환 작업 인스턴스 지표의 차원

측정기준 설명
Host

처리 작업의 경우 이 차원의 값은 [processing-job-name]/algo-[instance-number-in-cluster] 형식입니다. 이 차원을 사용하여 지정된 처리 작업 및 인스턴스에 대한 인스턴스 지표를 필터링합니다. 이 차원 형식은 /aws/sagemaker/ProcessingJobs 네임스페이스에서만 표시됩니다.

훈련 작업의 경우 이 차원의 값은 [training-job-name]/algo-[instance-number-in-cluster] 형식입니다. 이 차원을 사용하여 지정된 훈련 작업 및 인스턴스에 대한 인스턴스 지표를 필터링합니다. 이 차원 형식은 /aws/sagemaker/TrainingJobs 네임스페이스에서만 표시됩니다.

배치 변환 작업의 경우 이 차원의 값은 [transform-job-name]/[instance-id] 형식입니다. 이 차원을 사용하여 지정된 배치 변환 작업 및 인스턴스에 대한 인스턴스 지표를 필터링합니다. 이 차원 형식은 /aws/sagemaker/TransformJobs 네임스페이스에서만 표시됩니다.

SageMaker 추론 추천 작업 지표

/aws/sagemaker/InferenceRecommendationsJobs 네임스페이스에는 추론 추천 작업에 대한 다음 지표가 포함됩니다.

추론 추천 지표

지표 설명
ClientInvocations

추론 추천에서 관찰한 모델 엔드포인트로 전송된 InvokeEndpoint 요청 수입니다.

단위: 없음

유효 통계: Sum

ClientInvocationErrors

추론 추천에서 관찰한 실패한 InvokeEndpoint 요청 수입니다.

단위: 없음

유효 통계: Sum

ClientLatency

추론 추천에서 관찰한 InvokeEndpoint 호출 발신 후 응답 수신까지 걸린 시간 간격. 참고로 시간은 밀리초 단위인 반면 ModelLatency 엔드포인트 호출 지표는 마이크로초 단위입니다.

단위: 밀리초

유효 통계: Average, Sum, Min, Max, Sample Count, Percentiles

NumberOfUsers

모델 엔드포인트에 InvokeEndpoint 요청을 보내는 동시 사용자 수입니다.

단위: 없음

유효 통계: Max, Min, Average

추론 추천 작업 지표의 차원

측정기준 설명
JobName

지정된 추론 추천 작업에 대한 추론 추천 작업 지표를 필터링합니다.

EndpointName

지정된 엔드포인트에 대한 추론 추천 작업 지표를 필터링합니다.

SageMaker Ground Truth 지표

Ground Truth 지표

지표 설명
ActiveWorkers

작업을 제출, 공개 또는 거부한 프라이빗 작업팀의 활성 작업자 한 명. 총 활성 작업자 수를 구하려면 Sum(합계) 통계를 사용하세요. Ground Truth는 각 개별 ActiveWorkers 이벤트를 한 번 전달하려고 합니다. 이 전송에 실패하면 이 지표가 총 활성 작업자 수를 보고하지 않을 수 있습니다.

단위: 없음

유효한 통계: Sum, Sample Count

DatasetObjectsAutoAnnotated

레이블 지정 작업에서 자동으로 주석이 추가되는 데이터 세트 객체의 수입니다. 이 지표는 자동화 레이블 지정 작업을 활성화한 경우에만 방출됩니다. 레이블 지정 작업 진행 상황을 보려면 Max 지표를 사용합니다.

단위: 없음

유효한 통계: Max

DatasetObjectsHumanAnnotated

레이블 지정 작업에서 사람이 주석을 추가한 데이터 세트 객체의 수입니다. 레이블 지정 작업 진행 상황을 보려면 Max 지표를 사용합니다.

단위: 없음

유효한 통계: Max

DatasetObjectsLabelingFailed

레이블 지정 작업에서 레이블 지정에 실패한 데이터 세트 객체의 수입니다. 레이블 지정 작업 진행 상황을 보려면 Max 지표를 사용합니다.

단위: 없음

유효한 통계: Max

JobsFailed

단일 레이블 지정 작업이 실패했습니다. 실패한 총 레이블 지정 작업 수를 가져오려면 Sum(합계) 통계를 사용합니다.

단위: 없음

유효한 통계: Sum, Sample Count

JobsSucceeded

단일 레이블 지정 작업이 성공했습니다. 성공한 총 레이블 지정 작업의 수를 가져오려면 Sum 통계를 사용합니다.

단위: 없음

유효한 통계: Sum, Sample Count

JobsStopped

단일 레이블 지정 작업이 중단되었습니다. 중지된 총 레이블 지정 작업 수를 가져오려면 Sum 통계를 사용합니다.

단위: 없음

유효한 통계: Sum, Sample Count

TasksAccepted

한 작업자가 단일 작업을 수락했습니다. 작업자가 수락한 총 작업 수를 구하려면 Sum(합계) 통계를 사용하세요. Ground Truth는 각 개별 TaskAccepted 이벤트를 한 번 전달하려고 합니다. 전달이 실패할 경우 이 지표에 총 수락한 작업 수가 반영되지 않을 수 있습니다.

단위: 없음

유효한 통계: Sum, Sample Count

TasksDeclined

한 작업자가 단일 작업을 거부했습니다. 작업자가 거부한 총 작업 수를 구하려면 Sum(합계) 통계를 사용하세요. Ground Truth는 각 개별 TasksDeclined 이벤트를 한 번 전달하려고 합니다. 전달이 실패할 경우 이 지표에 총 거부한 작업 수가 반영되지 않을 수 있습니다.

단위: 없음

유효한 통계: Sum, Sample Count

TasksReturned

단일 작업이 반환되었습니다. 반환된 총 작업 수를 구하려면 Sum(합계) 통계를 사용하세요. Ground Truth는 각 개별 TasksReturned 이벤트를 한 번 전달하려고 합니다. 전달이 실패할 경우 이 지표에 총 반환된 작업 수가 반영되지 않을 수 있습니다.

단위: 없음

유효한 통계: Sum, Sample Count

TasksSubmitted

프라이빗 작업자가 단일 작업을 제출/완료했습니다. 작업자가 제출한 총 작업 수를 구하려면 Sum(합계) 통계를 사용하세요. Ground Truth는 각 개별 TasksSubmitted 이벤트를 한 번 전달하려고 합니다. 전달이 실패할 경우 이 지표에 총 제출된 작업 수가 반영되지 않을 수 있습니다.

단위: 없음

유효한 통계: Sum, Sample Count

TimeSpent

프라이빗 작업자가 완료한 작업에 소요된 시간입니다. 작업자가 일시 중지하거나 휴식을 취한 시간은 이 지표에 포함되지 않습니다. Ground Truth는 각 TimeSpent 이벤트를 한 번 전달하려고 합니다. 전달이 실패할 경우 이 지표에 총 소비 시간이 반영되지 않을 수 있습니다.

단위: 초

유효한 통계: Sum, Sample Count

TotalDatasetObjectsLabeled

레이블 지정 작업에서 성공적으로 레이블이 지정된 데이터 세트 객체의 수입니다. 레이블 지정 작업 진행 상황을 보려면 Max 지표를 사용합니다.

단위: 없음

유효한 통계: Max

Dimensions for Dataset Object Metrics(데이터 세트 객체 지표의 차원)

측정기준 설명
LabelingJobName

레이블 지정 작업에 대한 데이터 세트 객체 수 지표를 필터링합니다.

Amazon SageMaker 특성 저장소 지표

특성 스토어 소비 지표

지표 설명
ConsumedReadRequestsUnits

지정한 시간 동안 소비한 읽기 단위의 수. 특성 스토어 런타임 작업 및 해당 특성 그룹에 사용된 읽기 단위를 검색할 수 있습니다.

단위: 없음

유효한 통계: All

ConsumedWriteRequestsUnits

지정한 시간 동안 소비한 쓰기 단위의 수. 특성 스토어 런타임 작업 및 해당 특성 그룹에 사용된 쓰기 단위를 검색할 수 있습니다.

단위: 없음

유효한 통계: All

ConsumedReadCapacityUnits

지정된 기간 동안 사용된 프로비저닝된 읽기 용량 단위의 수입니다. 특성 저장소 런타임 작업 및 해당 특성 그룹에 대해 소비된 읽기 용량 단위를 검색할 수 있습니다.

단위: 없음

유효한 통계: All

ConsumedWriteCapacityUnits

지정된 기간 동안 사용된 프로비저닝된 쓰기 용량 단위의 수입니다. 특성 저장소 런타임 작업 및 해당 특성 그룹에 대해 소비된 쓰기 용량 단위를 검색할 수 있습니다.

단위: 없음

유효한 통계: All

특성 스토어 소비 지표 차원

측정기준 설명
FeatureGroupName, OperationName

지정한 특성 그룹 및 작업의 특성 스토어 런타임 소비 지표를 필터링합니다.

특성 스토어 운영 지표

지표 설명
Invocations

지정된 기간 동안 특성 스토어 런타임 작업에 수행된 요청 수입니다.

단위: 없음

유효 통계: Sum

Operation4XXErrors

작업이 4xx HTTP 응답 코드를 반환한 특성 저장소 런타임 작업에 대한 요청 수입니다. 각 4xx 응답에 대해 1이 전송되고, 그렇지 않으면 0이 전송됩니다.

단위: 없음

유효한 통계: Average, Sum

Operation5XXErrors

작업이 5xx HTTP 응답 코드를 반환한 기능 스토어 런타임 작업에 대한 요청 수입니다. 각 5xx 응답에 대해 1이 전송되고, 그렇지 않으면 0이 전송됩니다.

단위: 없음

유효한 통계: Average, Sum

ThrottledRequests

특성 스토어 런타임 작업에 요청되었으나 조절을 받은 요청 수입니다. 제한된 요청마다 1이 전송되고, 그렇지 않으면 0이 전송됩니다.

단위: 없음

유효한 통계: Average, Sum

Latency

특성 스토어 런타임 작업에의 요청을 처리하는 시간 간격입니다. 이 간격은 요청을 SageMaker 받은 시점부터 클라이언트에 응답을 반환할 때까지 측정됩니다.

단위: 마이크로초

유효 통계: Average, Sum, Min, Max, Sample Count, Percentiles

특성 스토어 운영 지표 차원

측정기준 설명

FeatureGroupName, OperationName

지정한 특성 그룹 및 작업의 특성 스토어 런타임 운영 지표를 필터링합니다. , GetRecord PutRecord및 와 같은 비 배치 작업에 이러한 차원을 사용할 수 있습니다 DeleteRecord.
OperationName

지정한 작업의 특성 스토어 런타임 운영 지표를 필터링합니다. 와 같은 배치 작업에 이 차원을 사용할 수 있습니다 BatchGetRecord.

SageMaker 파이프라인 지표

AWS/Sagemaker/ModelBuildingPipeline 네임스페이스에는 파이프라인 실행에 대한 다음 지표가 포함되어 있습니다.

파이프라인 실행 지표에는 두 가지 범주가 있습니다.

  • 모든 파이프라인의 실행 지표 - 계정 수준 파이프라인 실행 지표 (현재 계정의 모든 파이프라인)

  • 파이프라인별 실행 지표 - 파이프라인별 파이프라인 실행 지표

지표는 1분 간격으로 제공됩니다.

파이프라인 실행 지표

지표 설명
ExecutionStarted

시작된 파이프라인 실행 수입니다.

단위: 개

유효한 통계: Average, Sum

ExecutionFailed

실패한 파이프라인 실행 수입니다.

단위: 개

유효한 통계: Average, Sum

ExecutionSucceeded

성공한 파이프라인 실행 수입니다.

단위: 개

유효한 통계: Average, Sum

ExecutionStopped

중지된 파이프라인 실행 수입니다.

단위: 개

유효한 통계: Average, Sum

ExecutionDuration

파이프라인이 실행된 기간 (밀리초).

단위: 밀리초

유효 통계: Average, Sum, Min, Max, Sample Count

파이프라인별 실행 지표 차원

측정기준 설명
PipelineName

지정된 파이프라인의 파이프라인 실행 지표를 필터링합니다.

파이프라인 단계 지표

AWS/Sagemaker/ModelBuildingPipeline 네임스페이스에는 파이프라인 단계에 대한 다음 지표가 포함되어 있습니다.

지표는 1분 간격으로 제공됩니다.

지표 설명
StepStarted

시작된 단계의 수입니다.

단위: 개

유효한 통계: Average, Sum

StepFailed

실패한 단계의 수입니다.

단위: 개

유효한 통계: Average, Sum

StepSucceeded

성공한 단계의 수입니다.

단위: 개

유효한 통계: Average, Sum

StepStopped

중지된 단계의 수입니다.

단위: 개

유효한 통계: Average, Sum

StepDuration

단계가 실행된 기간 (밀리초).

단위: 밀리초

유효 통계: Average, Sum, Min, Max, Sample Count

파이프라인 단계 지표의 차원

측정기준 설명
PipelineName, StepName

지정된 파이프라인 및 단계의 단계 지표를 필터링합니다.