기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
SageMaker 아마존과 함께 아마존을 모니터링하세요 CloudWatch
원시 데이터를 수집하여 읽을 수 있는 거의 실시간 지표로 처리하는 Amazon을 SageMaker 사용하여 CloudWatch Amazon을 모니터링할 수 있습니다. 이러한 통계는 15개월간 보관되므로 기록 정보에 액세스하고 웹 애플리케이션 또는 서비스가 어떻게 실행되고 있는지 전체적으로 더 잘 파악할 수 있습니다. 하지만 Amazon CloudWatch 콘솔에서는 지난 2주 동안 업데이트된 지표만 검색하도록 제한합니다. 이 제한은 가장 최신 작업이 네임스페이스에 표시되도록 보장합니다. 검색을 사용하지 않고 지표를 그래프로 표시하려면 소스 보기에서 지표의 정확한 이름을 지정합니다. 특정 임계값을 주시하다가 해당 임계값이 충족될 때 알림을 전송하거나 조치를 취하도록 경보를 설정할 수도 있습니다. 자세한 내용은 Amazon CloudWatch 사용 설명서를 참조하십시오.
SageMaker 측정치 및 치수
SageMaker 엔드포인트 호출 지표
AWS/SageMaker
네임스페이스에는 호출에서 발생한 다음과 같은 요청 지표가 포함됩니다. InvokeEndpoint
지표는 1분 간격으로 제공됩니다.
다음 그림은 SageMaker 엔드포인트가 Amazon SageMaker Runtime API와 상호 작용하는 방식을 보여줍니다. 엔드포인트로 요청을 보내고 응답을 받는 데 걸리는 전체 시간은 다음 세 가지 구성 요소에 따라 달라집니다.
-
네트워크 지연 시간 — 런타임 런타임 API에 요청한 후 SageMaker 런타임 API로부터 응답을 받는 데 걸리는 시간입니다. SageMaker
-
오버헤드 지연 시간 — 런타임 API에서 모델 컨테이너로 요청을 전송하고 SageMaker 런타임 런타임 API로 응답을 다시 전송하는 데 걸리는 시간입니다. SageMaker
-
모델 지연 시간(Model latency) - 모델 컨테이너가 요청을 처리하고 응답을 반환하는 데 걸리는 시간입니다.
![총 지연 시간(total latency)이 네트워크, 오버헤드 및 모델 지연 시간의 합계임을 보여주는 그림.](images/cloudwatch-latency-types.png)
총 지연 시간에 대한 자세한 내용은 Amazon SageMaker 실시간 추론 엔드포인트 부하 테스트 모범 사례를
Endpoint Invocation Metric(엔드포인트 호출 지표)
지표 | 설명 |
---|---|
Invocation4XXErrors |
모델이 4xx HTTP 응답 코드를 반환하는 단위: 없음 유효한 통계: Average, Sum |
Invocation5XXErrors |
모델이 5xx HTTP 응답 코드를 반환하는 단위: 없음 유효한 통계: Average, Sum |
InvocationModelErrors |
2XX HTTP 응답으로 이어지지 않은 모델 호출 요청 수. 여기에는 4XX/5XX 상태 코드, 저수준 소켓 오류, 잘못된 HTTP 응답 및 요청 제한 시간이 포함됩니다. 각 오류 응답에 대해 1이 전송되고, 그 외의 경우에는 0이 전송됩니다. 단위: 없음 유효한 통계: Average, Sum |
Invocations |
모델 엔드포인트에 전송된 모델 엔드포인트에 전송된 총 요청 수를 가져오려면 Sum 통계를 사용합니다. 단위: 없음 유효 통계: Sum |
InvocationsPerCopy |
추론 구성 요소의 각 사본에 의해 정규화된 호출 수. 유효 통계: Sum |
InvocationsPerInstance |
모델에 전송된 호출 수로, 단위: 없음 유효 통계: Sum |
ModelLatency |
모델이 SageMaker 런타임 API 요청에 응답하는 데 걸리는 시간 간격. 이 간격에는 요청을 전송하고 모델 컨테이너에서 응답을 가져오는 데 걸리는 로컬 통신 시간과 컨테이너에서 추론을 완료하는 데 걸리는 시간도 포함됩니다. 단위: 마이크로초 유효 통계: Average, Sum, Min, Max, Sample Count |
ModelSetupTime |
서버리스 엔드포인트를 위해 새 컴퓨팅 리소스를 시작하는 데 걸리는 시간입니다. 시간은 모델 크기, 모델 다운로드에 걸리는 시간, 컨테이너의 시작 시간에 따라 달라집니다. 단위: 마이크로초 유효 통계: Average, Min, Max, Sample Count, Percentiles |
OverheadLatency |
클라이언트 요청에 응답하는 데 걸리는 시간을 SageMaker 오버헤드로 계산하여 더한 시간 간격입니다. 이 간격은 요청을 SageMaker 받은 시간부터 클라이언트에 대한 응답을 반환할 때까지의 시간을 뺀 값입니다. 단위: 마이크로초 유효 통계: Average, Sum, Min, Max, Sample Count |
엔드포인트 호출 지표의 차원
측정기준 | 설명 |
---|---|
EndpointName, VariantName |
지정된 엔드포인트 및 변환의 |
InferenceComponentName |
추론 구성 요소 호출 지표를 필터링합니다. |
SageMaker 추론 구성 요소 지표
/aws/sagemaker/InferenceComponents
네임스페이스에는 추론 구성 요소를 호스팅하는 InvokeEndpoint엔드포인트 호출부터 엔드포인트까지 다음과 같은 메트릭이 포함됩니다.
지표는 1분 간격으로 제공됩니다.
지표 | 설명 |
---|---|
CPUUtilizationNormalized |
추론 구성 요소의 각 복사본에서 보고되는 |
GPUMemoryUtilizationNormalized |
추론 구성 요소의 각 사본에서 보고되는 |
GPUUtilizationNormalized |
추론 구성 요소의 각 사본에서 보고되는 |
MemoryUtilizationNormalized |
추론 구성 요소의 각 사본에서 |
추론 구성 요소 지표의 측정기준
측정기준 | 설명 |
---|---|
InferenceComponentName |
추론 구성 요소 메트릭을 필터링합니다. |
SageMaker 다중 모델 엔드포인트 지표
AWS/SageMaker
네임스페이스에는 호출에서 메트릭을 로드하는 다음과 같은 모델 로딩이 포함됩니다. InvokeEndpoint
지표는 1분 간격으로 제공됩니다.
CloudWatch 지표가 보존되는 기간에 대한 자세한 내용은 Amazon CloudWatch API 참조를 참조하십시오 GetMetricStatistics.
다중 모델 엔드포인트 모델 로드 지표
지표 | 설명 |
---|---|
ModelLoadingWaitTime |
추론을 수행하기 위해 대상 모델이 다운로드되거나, 로드되거나, 다운로드 및 로드될 때까지 호출 요청이 대기한 시간 간격입니다. 단위: 마이크로초 유효 통계: Average, Sum, Min, Max, Sample Count |
ModelUnloadingTime |
컨테이너의 단위: 마이크로초 유효 통계: Average, Sum, Min, Max, Sample Count |
ModelDownloadingTime |
Amazon Simple Storage Service(S3)에서 모델을 다운로드하는 데 걸린 시간 간격입니다. 단위: 마이크로초 유효 통계: Average, Sum, Min, Max, Sample Count |
ModelLoadingTime |
컨테이너의 단위: 마이크로초 유효 통계: Average, Sum, Min, Max, Sample Count |
ModelCacheHit |
모델이 이미 로드된 다중 모델 엔드포인트로 전송된 평균 통계는 모델이 이미 로드된 요청의 비율을 보여줍니다. 단위: 없음 유효한 통계: 평균, 합계, 샘플 개수 |
Dimensions for Multi–Model Endpoint Model Loading Metrics(다중 모델 엔드포인트 모델 로드 지표의 차원)
측정기준 | 설명 |
---|---|
EndpointName, VariantName |
지정된 엔드포인트 및 변환의 |
/aws/sagemaker/Endpoints
네임스페이스에는 호출의 다음 인스턴스 지표가 포함됩니다. InvokeEndpoint
지표는 1분 간격으로 제공됩니다.
CloudWatch 지표가 보존되는 기간에 대한 자세한 내용은 Amazon CloudWatch API 참조를 참조하십시오 GetMetricStatistics.
Multi–Model Endpoint Model Instance Metrics(다중 모델 엔드포인트 모델 인스턴스 지표)
지표 | 설명 |
---|---|
LoadedModelCount |
다중 모델 엔드포인트의 컨테이너에 로드된 모델 수입니다. 이 지표는 인스턴스별로 내보내집니다. 1분의 평균 통계는 인스턴스당 로드된 평균 모델 수를 나타냅니다. 합계 통계는 엔드포인트의 모든 인스턴스에 로드된 총 모델 수를 알려줍니다. 모델이 엔드포인트의 여러 컨테이너에 로드될 수 있기 때문에 이 지표가 추적하는 모델은 고유하지 않을 수 있습니다. 단위: 없음 유효 통계: Average, Sum, Min, Max, Sample Count |
Dimensions for Multi–Model Endpoint Model Loading Metrics(다중 모델 엔드포인트 모델 로드 지표의 차원)
측정기준 | 설명 |
---|---|
EndpointName, VariantName |
지정된 엔드포인트 및 변환의 |
SageMaker 작업 및 엔드포인트 지표
/aws/sagemaker/ProcessingJobs
, /aws/sagemaker/TrainingJobs
, /aws/sagemaker/TransformJobs
및 /aws/sagemaker/Endpoints
네임스페이스에는 훈련 작업 및 엔드포인트 인스턴스에 대한 다음 지표가 포함됩니다.
지표는 1분 간격으로 제공됩니다.
참고
CloudWatch Amazon은 고해상도 사용자 지정 지표를 지원하며 최상의 해상도는 1초입니다. 하지만 해상도가 미세할수록 지표의 수명이 짧아집니다. CloudWatch 1초 주파수 분해능의 경우 CloudWatch 메트릭을 3시간 동안 사용할 수 있습니다. CloudWatch 메트릭의 해상도 및 수명에 대한 자세한 내용은 Amazon CloudWatch API 참조를 참조하십시오 GetMetricStatistics.
작은 정보
훈련 작업을 100밀리초 (0.1초) 까지 세밀한 해상도로 프로파일링하고 언제든지 사용자 지정 분석을 위해 Amazon S3에 교육 지표를 무기한 저장하려는 경우 Amazon Debugger를 사용해 보십시오. SageMaker SageMaker 디버거는 일반적인 학습 문제를 자동으로 감지하는 내장 규칙을 제공합니다. 디버거는 하드웨어 리소스 사용률 문제 (예: CPU, GPU, I/O 병목 현상) 및 비수렴 모델 문제 (예: 과적합, 기울기 소멸, 텐서 폭발) 를 탐지합니다. SageMaker 또한 디버거는 Studio Classic 및 해당 프로파일링 보고서를 통해 시각화를 제공합니다. 디버거 시각화에 대해 알아보려면 디버거 인사이트 대시보드 안내, SageMaker 디버거 프로파일링 보고서 안내 및 SMDebug 클라이언트 라이브러리를 사용한 데이터 분석을 참조하십시오.
처리 작업, 훈련 작업, 배치 변환 작업 및 엔드포인트 인스턴스 지표
지표 | 설명 |
---|---|
CPUReservation |
인스턴스의 컨테이너에 예약된 CPU의 합계. 값의 범위는 0% ~ 100% 입니다. 추론 구성 요소 설정에서 |
CPUUtilization |
각 개별 CPU 코어 사용률의 합계. 각 코어 범위의 CPU 사용률은 0–100입니다. 예를 들어 CPU가 4개인 경우 CPUUtilization 범위는 0%~400%입니다. 처리 작업의 경우 이 값은 인스턴스에 있는 처리 컨테이너의 CPU 사용률입니다.훈련 작업의 경우 이 값은 인스턴스에 있는 알고리즘 컨테이너의 CPU 사용률입니다. 배치 변환 작업의 경우 이 값은 인스턴스에 있는 변환 컨테이너의 CPU 사용률입니다. 엔드포인트 변환의 경우 이 값은 인스턴스에 있는 기본 및 보조 컨테이너의 CPU 사용률 총합입니다. 참고다중 인스턴스 작업의 경우, 각 인스턴스가 CPU 사용률 지표를 보고합니다. 하지만 의 기본 뷰에는 모든 인스턴스의 평균 CPU 사용률이 CloudWatch 표시됩니다. 단위: 백분율 |
CPUUtilizationNormalized |
각 개별 CPU 코어 사용률의 정규화된 합계입니다. 값의 범위는 0% ~ 100% 입니다. 예를 들어 CPU가 4개이고 |
DiskUtilization |
인스턴스의 컨테이너에서 사용하는 디스크 공간의 비율입니다. 이 값 범위는 0%~100%입니다. 배치 변환 작업에는 이 지표가 지원되지 않습니다. 처리 작업의 경우 이 값은 인스턴스에 있는 처리 컨테이너의 디스크 공간 사용률입니다.훈련 작업의 경우 이 값은 인스턴스에 있는 알고리즘 컨테이너의 디스크 공간 사용률입니다. 엔드포인트 변환의 경우 이 값은 인스턴스에 있는 기본 및 보조 컨테이너의 디스크 공간 사용률 합계입니다. 단위: 백분율 참고다중 인스턴스 작업의 경우, 각 인스턴스가 디스크 사용률 지표를 보고합니다. 그러나 의 기본 보기에는 모든 인스턴스의 평균 디스크 사용률이 CloudWatch 표시됩니다. |
GPUMemoryUtilization |
인스턴스의 컨테이너에서 사용하는 GPU 메모리의 비율(%)입니다. 값 범위는 0~100이고, GPU의 수를 곱합니다. 예를 들어 GPU가 4개인 경우 훈련 작업의 경우 이 값은 인스턴스에 있는 알고리즘 컨테이너의 GPU 메모리 사용률입니다. 배치 변환 작업의 경우 이 값은 인스턴스에 있는 변환 컨테이너의 GPU 메모리 사용률입니다. 엔드포인트 변환의 경우 이 값은 인스턴스에 있는 기본 및 보조 컨테이너의 GPU 메모리 사용률 총합입니다. 참고다중 인스턴스 작업의 경우, 각 인스턴스가 GPU 메모리 사용률 지표를 보고합니다. 하지만 의 기본 보기에는 모든 인스턴스의 평균 GPU 메모리 사용률이 CloudWatch 표시됩니다. 단위: 백분율 |
GPUMemoryUtilizationNormalized |
인스턴스의 컨테이너가 사용하는 GPU 메모리의 정규화된 비율입니다. 값의 범위는 0% ~ 100% 입니다. 예를 들어 GPU가 4개이고 |
GPUReservation |
인스턴스의 컨테이너가 예약한 GPU의 합계. 값의 범위는 0% ~ 100% 입니다. 추론 구성 요소 설정에서 GPU 예약을 기준으로 설정합니다. |
GPUUtilization |
인스턴스의 컨테이너에서 사용하는 GPU 유닛의 비율(%)입니다. 값의 범위는 0—100 사이일 수 있으며 GPU 수를 곱합니다. 예를 들어 GPU가 4개인 경우 훈련 작업의 경우 이 값은 인스턴스에 있는 알고리즘 컨테이너의 GPU 사용률입니다. 배치 변환 작업의 경우 이 값은 인스턴스에 있는 변환 컨테이너의 GPU 사용률입니다. 엔드포인트 변환의 경우 이 값은 인스턴스에 있는 기본 및 보조 컨테이너의 GPU 사용률 총합입니다. 참고다중 인스턴스 작업의 경우, 각 인스턴스가 GPU 사용률 지표를 보고합니다. 하지만 의 기본 보기에는 모든 인스턴스의 평균 GPU 사용률이 CloudWatch 표시됩니다. 단위: 백분율 |
GPUUtilizationNormalized |
인스턴스의 컨테이너에서 사용하는 GPU 단위의 정규화된 비율입니다. 값의 범위는 0% ~ 100% 입니다. 예를 들어 GPU가 4개이고 |
MemoryReservation |
인스턴스에 컨테이너가 예약한 메모리의 합계. 값의 범위는 0% ~ 100% 입니다. 추론 구성 요소 설정에서 |
MemoryUtilization |
인스턴스의 컨테이너에서 사용하는 메모리의 비율(%)입니다. 이 값 범위는 0%~100%입니다. 처리 작업의 경우 이 값은 인스턴스에 있는 처리 컨테이너의 메모리 사용률입니다.훈련 작업의 경우 이 값은 인스턴스에 있는 알고리즘 컨테이너의 메모리 사용률입니다. 배치 변환 작업의 경우 이 값은 인스턴스에 있는 변환 컨테이너의 메모리 사용률입니다. 엔드포인트 변환의 경우 이 값은 인스턴스에 있는 기본 및 보조 컨테이너의 메모리 사용률 총합입니다. 단위: 백분율 참고다중 인스턴스 작업의 경우, 각 인스턴스가 메모리 사용률 지표를 보고합니다. 하지만 의 기본 보기에는 모든 인스턴스의 평균 메모리 사용률이 CloudWatch 표시됩니다. |
처리 작업, 훈련 작업 및 배치 변환 작업 인스턴스 지표의 차원
측정기준 | 설명 |
---|---|
Host |
처리 작업의 경우 이 차원의 값은 훈련 작업의 경우 이 차원의 값은 배치 변환 작업의 경우 이 차원의 값은 |
SageMaker 추론 추천자 작업 지표
/aws/sagemaker/InferenceRecommendationsJobs
네임스페이스에는 추론 추천 작업에 대한 다음 지표가 포함됩니다.
추론 추천 지표
지표 | 설명 |
---|---|
ClientInvocations |
추론 추천에서 관찰한 모델 엔드포인트로 전송된 단위: 없음 유효 통계: Sum |
ClientInvocationErrors |
추론 추천에서 관찰한 실패한 단위: 없음 유효 통계: Sum |
ClientLatency |
추론 추천에서 관찰한 단위: 밀리초 유효 통계: Average, Sum, Min, Max, Sample Count, Percentiles |
NumberOfUsers |
모델 엔드포인트에 단위: 없음 유효 통계: Max, Min, Average |
추론 추천 작업 지표의 차원
측정기준 | 설명 |
---|---|
JobName |
지정된 추론 추천 작업에 대한 추론 추천 작업 지표를 필터링합니다. |
EndpointName |
지정된 엔드포인트에 대한 추론 추천 작업 지표를 필터링합니다. |
SageMaker Ground Truth 메트릭스
Ground Truth 지표
지표 | 설명 |
---|---|
ActiveWorkers |
작업을 제출, 공개 또는 거부한 프라이빗 작업팀의 활성 작업자 한 명. 총 활성 작업자 수를 구하려면 Sum(합계) 통계를 사용하세요. Ground Truth는 각 개별 단위: 없음 유효한 통계: Sum, Sample Count |
DatasetObjectsAutoAnnotated |
레이블 지정 작업에서 자동으로 주석이 추가되는 데이터 세트 객체의 수입니다. 이 지표는 자동화 레이블 지정 작업을 활성화한 경우에만 방출됩니다. 레이블 지정 작업 진행 상황을 보려면 Max 지표를 사용합니다. 단위: 없음 유효한 통계: Max |
DatasetObjectsHumanAnnotated |
레이블 지정 작업에서 사람이 주석을 추가한 데이터 세트 객체의 수입니다. 레이블 지정 작업 진행 상황을 보려면 Max 지표를 사용합니다. 단위: 없음 유효한 통계: Max |
DatasetObjectsLabelingFailed |
레이블 지정 작업에서 레이블 지정에 실패한 데이터 세트 객체의 수입니다. 레이블 지정 작업 진행 상황을 보려면 Max 지표를 사용합니다. 단위: 없음 유효한 통계: Max |
JobsFailed |
단일 레이블 지정 작업이 실패했습니다. 실패한 총 레이블 지정 작업 수를 가져오려면 Sum(합계) 통계를 사용합니다. 단위: 없음 유효한 통계: Sum, Sample Count |
JobsSucceeded |
단일 레이블 지정 작업이 성공했습니다. 성공한 총 레이블 지정 작업의 수를 가져오려면 Sum 통계를 사용합니다. 단위: 없음 유효한 통계: Sum, Sample Count |
JobsStopped |
단일 레이블 지정 작업이 중단되었습니다. 중지된 총 레이블 지정 작업 수를 가져오려면 Sum 통계를 사용합니다. 단위: 없음 유효한 통계: Sum, Sample Count |
TasksAccepted |
한 작업자가 단일 작업을 수락했습니다. 작업자가 수락한 총 작업 수를 구하려면 Sum(합계) 통계를 사용하세요. Ground Truth는 각 개별 단위: 없음 유효한 통계: Sum, Sample Count |
TasksDeclined |
한 작업자가 단일 작업을 거부했습니다. 작업자가 거부한 총 작업 수를 구하려면 Sum(합계) 통계를 사용하세요. Ground Truth는 각 개별 단위: 없음 유효한 통계: Sum, Sample Count |
TasksReturned |
단일 작업이 반환되었습니다. 반환된 총 작업 수를 구하려면 Sum(합계) 통계를 사용하세요. Ground Truth는 각 개별 단위: 없음 유효한 통계: Sum, Sample Count |
TasksSubmitted |
프라이빗 작업자가 단일 작업을 제출/완료했습니다. 작업자가 제출한 총 작업 수를 구하려면 Sum(합계) 통계를 사용하세요. Ground Truth는 각 개별 단위: 없음 유효한 통계: Sum, Sample Count |
TimeSpent |
프라이빗 작업자가 완료한 작업에 소요된 시간입니다. 작업자가 일시 중지하거나 휴식을 취한 시간은 이 지표에 포함되지 않습니다. Ground Truth는 각 단위: 초 유효한 통계: Sum, Sample Count |
TotalDatasetObjectsLabeled |
레이블 지정 작업에서 성공적으로 레이블이 지정된 데이터 세트 객체의 수입니다. 레이블 지정 작업 진행 상황을 보려면 Max 지표를 사용합니다. 단위: 없음 유효한 통계: Max |
Dimensions for Dataset Object Metrics(데이터 세트 객체 지표의 차원)
측정기준 | 설명 |
---|---|
LabelingJobName |
레이블 지정 작업에 대한 데이터 세트 객체 수 지표를 필터링합니다. |
Amazon SageMaker 피처 스토어 지표
특성 스토어 소비 지표
지표 | 설명 |
---|---|
ConsumedReadRequestsUnits |
지정한 시간 동안 소비한 읽기 단위의 수. 특성 스토어 런타임 작업 및 해당 특성 그룹에 사용된 읽기 단위를 검색할 수 있습니다. 단위: 없음 유효한 통계: All |
ConsumedWriteRequestsUnits |
지정한 시간 동안 소비한 쓰기 단위의 수. 특성 스토어 런타임 작업 및 해당 특성 그룹에 사용된 쓰기 단위를 검색할 수 있습니다. 단위: 없음 유효한 통계: All |
ConsumedReadCapacityUnits |
지정된 기간 동안 소비된 프로비저닝된 읽기 용량 단위 수입니다. Feature Store 런타임 작업 및 해당 기능 그룹에 사용된 읽기 용량 단위를 검색할 수 있습니다. 단위: 없음 유효한 통계: All |
ConsumedWriteCapacityUnits |
지정된 기간 동안 사용된 프로비저닝된 쓰기 용량 단위 수입니다. Feature Store 런타임 작업 및 해당 기능 그룹에 사용된 쓰기 용량 단위를 검색할 수 있습니다. 단위: 없음 유효한 통계: All |
특성 스토어 소비 지표 차원
측정기준 | 설명 |
---|---|
FeatureGroupName , OperationName |
지정한 특성 그룹 및 작업의 특성 스토어 런타임 소비 지표를 필터링합니다. |
특성 스토어 운영 지표
지표 | 설명 |
---|---|
Invocations |
지정된 기간 동안 특성 스토어 런타임 작업에 수행된 요청 수입니다. 단위: 없음 유효 통계: Sum |
Operation4XXErrors |
작업이 4xx HTTP 응답 코드를 반환한 특성 스토어 런타임 작업에 이루어진 요청 수입니다. 각 4xx 응답에서 1이 전송되고, 그 외의 경우에는 0이 전송됩니다. 단위: 없음 유효한 통계: Average, Sum |
Operation5XXErrors |
작업이 5xx HTTP 응답 코드를 반환한 특성 스토어 런타임 작업에 이루어진 요청 수입니다. 각 5xx 응답에서 1이 전송되고, 그 외의 경우에는 0이 전송됩니다. 단위: 없음 유효한 통계: Average, Sum |
ThrottledRequests |
특성 스토어 런타임 작업에 요청되었으나 조절을 받은 요청 수입니다. 조절을 받은 각 요청에는 1이 전송되고, 그렇지 않으면 0이 전송됩니다. 단위: 없음 유효한 통계: Average, Sum |
Latency |
특성 스토어 런타임 작업에의 요청을 처리하는 시간 간격입니다. 이 간격은 요청을 SageMaker 수신한 시간부터 클라이언트에 응답을 반환할 때까지 측정됩니다. 단위: 마이크로초 유효 통계: Average, Sum, Min, Max, Sample Count, Percentiles |
특성 스토어 운영 지표 차원
측정기준 | 설명 |
---|---|
|
지정한 특성 그룹 및 작업의 특성 스토어 런타임 운영 지표를 필터링합니다. 이러한 차원은, GetRecord PutRecord, 등의 비배치 작업에 사용할 수 DeleteRecord 있습니다. |
OperationName |
지정한 작업의 특성 스토어 런타임 운영 지표를 필터링합니다. 이 차원은 다음과 같은 일괄 작업에 사용할 수 BatchGetRecord 있습니다. |
SageMaker 파이프라인 지표
AWS/Sagemaker/ModelBuildingPipeline
네임스페이스에는 파이프라인 실행에 대한 다음 지표가 포함되어 있습니다.
파이프라인 실행 지표에는 두 가지 범주가 있습니다.
-
모든 파이프라인의 실행 지표 - 계정 수준 파이프라인 실행 지표 (현재 계정의 모든 파이프라인)
-
파이프라인별 실행 지표 - 파이프라인별 파이프라인 실행 지표
지표는 1분 간격으로 제공됩니다.
파이프라인 실행 지표
지표 | 설명 |
---|---|
ExecutionStarted |
시작된 파이프라인 실행 수입니다. 단위: 개 유효한 통계: Average, Sum |
ExecutionFailed |
실패한 파이프라인 실행 수입니다. 단위: 개 유효한 통계: Average, Sum |
ExecutionSucceeded |
성공한 파이프라인 실행 수입니다. 단위: 개 유효한 통계: Average, Sum |
ExecutionStopped |
중지된 파이프라인 실행 수입니다. 단위: 개 유효한 통계: Average, Sum |
ExecutionDuration |
파이프라인이 실행된 기간 (밀리초). 단위: 밀리초 유효 통계: Average, Sum, Min, Max, Sample Count |
파이프라인별 실행 지표 차원
측정기준 | 설명 |
---|---|
PipelineName |
지정된 파이프라인의 파이프라인 실행 지표를 필터링합니다. |
파이프라인 단계 지표
AWS/Sagemaker/ModelBuildingPipeline
네임스페이스에는 파이프라인 단계에 대한 다음 지표가 포함되어 있습니다.
지표는 1분 간격으로 제공됩니다.
지표 | 설명 |
---|---|
StepStarted |
시작된 단계의 수입니다. 단위: 개 유효한 통계: Average, Sum |
StepFailed |
실패한 단계의 수입니다. 단위: 개 유효한 통계: Average, Sum |
StepSucceeded |
성공한 단계의 수입니다. 단위: 개 유효한 통계: Average, Sum |
StepStopped |
중지된 단계의 수입니다. 단위: 개 유효한 통계: Average, Sum |
StepDuration |
단계가 실행된 기간 (밀리초). 단위: 밀리초 유효 통계: Average, Sum, Min, Max, Sample Count |
파이프라인 단계 지표의 차원
측정기준 | 설명 |
---|---|
PipelineName , StepName |
지정된 파이프라인 및 단계의 단계 지표를 필터링합니다. |