기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
Amazon SageMaker 에서 Amazon을 모니터링하기 위한 지표 CloudWatch
원시 데이터를 CloudWatch수집하고 읽기 가능한 실시간에 가까운 지표로 처리하는 Amazon 를 SageMaker 사용하여 Amazon을 모니터링할 수 있습니다. 이러한 통계는 15개월 동안 유지됩니다. 이를 통해 과거 정보에 액세스하고 웹 애플리케이션 또는 서비스의 성능에 대한 더 나은 관점을 얻을 수 있습니다. 하지만 Amazon CloudWatch 콘솔은 검색을 지난 2주 동안 업데이트된 지표로 제한합니다. 이 제한은 가장 최신 작업이 네임스페이스에 표시되도록 보장합니다.
검색을 사용하지 않고 지표를 그래프로 표시하려면 소스 보기에서 지표의 정확한 이름을 지정합니다. 특정 임계값을 주시하다가 해당 임계값이 충족될 때 알림을 전송하거나 조치를 취하도록 경보를 설정할 수도 있습니다. 자세한 내용은 Amazon CloudWatch 사용 설명서 섹션을 참조하세요.
SageMaker 지표 및 차원
SageMaker 엔드포인트 호출 지표
AWS/SageMaker
네임스페이스에는 에 대한 호출의 다음과 같은 요청 지표가 InvokeEndpoint포함됩니다.
지표는 1분 간격으로 제공됩니다.
다음 그림은 SageMaker 엔드포인트가 Amazon SageMaker 런타임 와 상호 작용하는 방식을 보여줍니다API. 엔드포인트로 요청을 보내고 응답을 받는 데 걸리는 전체 시간은 다음 세 가지 구성 요소에 따라 달라집니다.
-
네트워크 지연 시간 - 에 요청을 하고 SageMaker 런타임 런타임 에서 응답을 수신하는 데 걸리는 시간입니다API.
-
오버헤드 지연 시간 - 요청을 에서 모델 컨테이너로 전송하고 응답을 SageMaker 런타임 로 다시 전송하는 데 걸리는 시간입니다API.
-
모델 지연 시간(Model latency) - 모델 컨테이너가 요청을 처리하고 응답을 반환하는 데 걸리는 시간입니다.
총 지연 시간에 대한 자세한 내용은 Amazon SageMaker 실시간 추론 엔드포인트 로드 테스트 모범 사례 섹션을
Endpoint Invocation Metric(엔드포인트 호출 지표)
지표 | 설명 |
---|---|
ConcurrentRequestsPerCopy |
추론 구성 요소의 각 복사본으로 정규화된 추론 구성 요소가 수신한 동시 요청 수입니다. 유효한 통계: 최소, 최대 |
ConcurrentRequestsPerModel |
모델에서 수신 중인 동시 요청 수입니다. 유효한 통계: 최소, 최대 |
Invocation4XXErrors |
모델이 4xx HTTP 응답 코드를 반환한 단위: 없음 유효한 통계: Average, Sum |
Invocation5XXErrors |
모델이 5xx HTTP 응답 코드를 반환한 단위: 없음 유효한 통계: Average, Sum |
InvocationModelErrors |
2XX HTTP 응답을 생성하지 않은 모델 호출 요청 수입니다. 여기에는 4XX/5XX 상태 코드, 하위 수준 소켓 오류, 잘못된 HTTP 응답 및 요청 제한 시간이 포함됩니다. 각 오류 응답에 대해 1이 전송되고, 그 외의 경우에는 0이 전송됩니다. 단위: 없음 유효한 통계: Average, Sum |
Invocations |
모델 엔드포인트에 전송된 모델 엔드포인트에 전송된 총 요청 수를 가져오려면 Sum 통계를 사용합니다. 단위: 없음 유효 통계: Sum |
InvocationsPerCopy |
추론 구성 요소의 각 복사본별로 정규화된 호출 수입니다. 유효 통계: Sum |
InvocationsPerInstance |
모델로 전송된 호출 수로, 각 단위: 없음 유효 통계: Sum |
ModelLatency |
SageMaker 런타임 API 요청에 응답하기 위해 모델이 소요한 시간 간격입니다. 이 간격에는 요청을 보내고 모델 컨테이너에서 응답을 가져오는 데 걸리는 로컬 통신 시간이 포함됩니다. 또한 컨테이너에서 추론을 완료하는 데 걸리는 시간도 포함됩니다. 단위: 마이크로초 유효 통계: Average, Sum, Min, Max, Sample Count |
ModelSetupTime |
서버리스 엔드포인트를 위해 새 컴퓨팅 리소스를 시작하는 데 걸리는 시간입니다. 시간은 모델 크기, 모델 다운로드에 걸리는 시간, 컨테이너의 시작 시간에 따라 달라집니다. 단위: 마이크로초 유효 통계: Average, Min, Max, Sample Count, Percentiles |
OverheadLatency |
SageMaker 오버헤드로 클라이언트 요청에 응답하는 데 걸리는 시간에 추가된 시간 간격입니다. 이 간격은 가 요청을 SageMaker 수신한 시점부터 클라이언트에 응답을 반환할 때까지 에서 를 뺀 값으로 측정됩니다 단위: 마이크로초 유효 통계: Average, Sum, Min, Max, Sample Count |
엔드포인트 호출 지표의 차원
측정기준 | 설명 |
---|---|
EndpointName, VariantName |
지정된 엔드포인트 및 변환의 |
InferenceComponentName |
추론 구성 요소 호출 지표를 필터링합니다. |
SageMaker 추론 구성 요소 지표
/aws/sagemaker/InferenceComponents
네임스페이스에는 추론 구성 요소를 호스팅하는 엔드포인트에 InvokeEndpoint 대한 에 대한 호출의 다음 지표가 포함됩니다.
지표는 1분 간격으로 제공됩니다.
지표 | 설명 |
---|---|
CPUUtilizationNormalized |
추론 구성 요소의 각 복사본에서 보고된 |
GPUMemoryUtilizationNormalized |
추론 구성 요소의 각 복사본에서 보고된 |
GPUUtilizationNormalized |
추론 구성 요소의 각 복사본에서 보고된 |
MemoryUtilizationNormalized |
추론 구성 요소의 각 복사본에서 |
추론 구성 요소 지표의 차원
측정기준 | 설명 |
---|---|
InferenceComponentName |
추론 구성 요소 지표를 필터링합니다. |
SageMaker 다중 모델 엔드포인트 지표
AWS/SageMaker
네임스페이스에는 에 대한 호출의 다음과 같은 모델 로드 지표가 InvokeEndpoint포함됩니다.
지표는 1분 간격으로 제공됩니다.
CloudWatch 지표가 보존되는 기간에 대한 자세한 내용은 Amazon 참조GetMetricStatistics의 섹션을 참조하세요. CloudWatch API
다중 모델 엔드포인트 모델 로드 지표
지표 | 설명 |
---|---|
ModelLoadingWaitTime |
추론을 실행하기 위해 호출 요청이 대상 모델이 다운로드, 로드 또는 둘 다를 기다린 시간 간격입니다. 단위: 마이크로초 유효 통계: Average, Sum, Min, Max, Sample Count |
ModelUnloadingTime |
컨테이너의 단위: 마이크로초 유효 통계: Average, Sum, Min, Max, Sample Count |
ModelDownloadingTime |
Amazon Simple Storage Service(S3)에서 모델을 다운로드하는 데 걸린 시간 간격입니다. 단위: 마이크로초 유효 통계: Average, Sum, Min, Max, Sample Count |
ModelLoadingTime |
컨테이너의 단위: 마이크로초 유효 통계: Average, Sum, Min, Max, Sample Count |
ModelCacheHit |
모델이 이미 로드된 다중 모델 엔드포인트로 전송된 평균 통계는 모델이 이미 로드된 요청의 비율을 보여줍니다. 단위: 없음 유효한 통계: 평균, 합계, 샘플 개수 |
Dimensions for Multi–Model Endpoint Model Loading Metrics(다중 모델 엔드포인트 모델 로드 지표의 차원)
측정기준 | 설명 |
---|---|
EndpointName, VariantName |
지정된 엔드포인트 및 변환의 |
/aws/sagemaker/Endpoints
네임스페이스에는 에 대한 호출의 다음 인스턴스 지표가 InvokeEndpoint포함됩니다.
지표는 1분 간격으로 제공됩니다.
CloudWatch 지표가 보존되는 기간에 대한 자세한 내용은 Amazon 참조GetMetricStatistics의 섹션을 참조하세요. CloudWatch API
Multi–Model Endpoint Model Instance Metrics(다중 모델 엔드포인트 모델 인스턴스 지표)
지표 | 설명 |
---|---|
LoadedModelCount |
다중 모델 엔드포인트의 컨테이너에 로드된 모델 수입니다. 이 지표는 인스턴스별로 내보내집니다. 1분의 평균 통계는 인스턴스당 로드된 평균 모델 수를 나타냅니다. 합계 통계는 엔드포인트의 모든 인스턴스에 로드된 총 모델 수를 알려줍니다. 모델이 엔드포인트의 여러 컨테이너에 로드될 수 있기 때문에 이 지표가 추적하는 모델은 고유하지 않을 수 있습니다. 단위: 없음 유효 통계: Average, Sum, Min, Max, Sample Count |
Dimensions for Multi–Model Endpoint Model Loading Metrics(다중 모델 엔드포인트 모델 로드 지표의 차원)
측정기준 | 설명 |
---|---|
EndpointName, VariantName |
지정된 엔드포인트 및 변환의 |
SageMaker 작업 및 엔드포인트 지표
/aws/sagemaker/ProcessingJobs
, /aws/sagemaker/TrainingJobs
/aws/sagemaker/TransformJobs
, 및 /aws/sagemaker/Endpoints
네임스페이스에는 훈련 작업 및 엔드포인트 인스턴스에 대한 다음 지표가 포함됩니다.
지표는 1분 간격으로 제공됩니다.
참고
Amazon은 고해상도 사용자 지정 지표를 CloudWatch 지원하며 최상의 해상도는 1초입니다. 하지만 해상도가 작을수록 CloudWatch 지표의 수명이 짧아집니다. 1초 주파수 해상도의 경우 CloudWatch 지표를 3시간 동안 사용할 수 있습니다. CloudWatch 지표의 해상도 및 수명에 대한 자세한 내용은 Amazon 참조GetMetricStatistics의 섹션을 참조하세요. CloudWatch API
작은 정보
훈련 작업을 100밀리초(0.1초) 단위로 세분화하여 프로파일링하고 언제든지 사용자 지정 분석을 위해 훈련 지표를 Amazon S3에 무기한 저장하려면 Amazon SageMaker Debugger 를 사용하는 것이 좋습니다. SageMaker Debugger는 일반적인 훈련 문제를 자동으로 감지하는 기본 제공 규칙을 제공합니다. 하드웨어 리소스 사용률 문제(예: CPU, GPU및 I/O 병목 현상)를 감지합니다. 또한 수렴되지 않는 모델 문제(예: 과적합, 퇴색 그라데이션, 텐서 폭발)도 감지합니다. SageMaker 또한 Debugger는 Studio Classic 및 프로파일링 보고서를 통해 시각화를 제공합니다. Debugger 시각화를 탐색하려면 SageMaker Debugger Insights Dashboard Walkthrough , Debugger Profiling Report Walkthrough 및 SMDebug 클라이언트 라이브러리를 사용하여 데이터 분석을 참조하세요.
처리 작업, 훈련 작업, 배치 변환 작업 및 엔드포인트 인스턴스 지표
지표 | 설명 |
---|---|
CPUReservation |
인스턴스의 컨테이너에서 CPUs 예약한 의 합계입니다. 값 범위는 0%~100%입니다. 추론 구성 요소의 설정에서 |
CPUUtilization |
각 개별 CPU 코어의 사용률 합계입니다. 각 코어 범위의 CPU 사용률은 0~100입니다. 예를 들어 가 4개인 경우 CPUs CPUUtilization 범위는 0%–400%입니다. 처리 작업의 경우 값은 인스턴스의 처리 컨테이너 CPU 사용률입니다.훈련 작업의 경우 값은 인스턴스의 알고리즘 컨테이너 CPU 사용률입니다. 배치 변환 작업의 경우 값은 인스턴스의 변환 컨테이너 CPU 사용률입니다. 엔드포인트 변형의 경우 값은 인스턴스의 기본 및 보조 컨테이너 CPU 사용률의 합계입니다. 참고다중 인스턴스 작업의 경우 각 인스턴스는 CPU 사용률 지표를 보고합니다. 그러나 의 기본 보기는 모든 인스턴스의 평균 CPU 사용률을 CloudWatch 보여줍니다. 단위: 백분율 |
CPUUtilizationNormalized |
각 개별 CPU 코어의 사용률의 정규화된 합계입니다. 값 범위는 0%~100%입니다. 예를 들어 가 4CPUs개이고 |
DiskUtilization |
인스턴스의 컨테이너에서 사용하는 디스크 공간의 비율입니다. 이 값 범위는 0%~100%입니다. 배치 변환 작업에는 이 지표가 지원되지 않습니다. 처리 작업의 경우 이 값은 인스턴스에 있는 처리 컨테이너의 디스크 공간 사용률입니다.훈련 작업의 경우 이 값은 인스턴스에 있는 알고리즘 컨테이너의 디스크 공간 사용률입니다. 엔드포인트 변환의 경우 이 값은 인스턴스에 있는 기본 및 보조 컨테이너의 디스크 공간 사용률 합계입니다. 단위: 백분율 참고다중 인스턴스 작업의 경우, 각 인스턴스가 디스크 사용률 지표를 보고합니다. 그러나 의 기본 보기는 모든 인스턴스의 평균 디스크 사용률을 CloudWatch 보여줍니다. |
GPUMemoryUtilization |
인스턴스의 컨테이너에서 사용하는 GPU 메모리의 백분율입니다. 값 범위는 0~100이며 의 수를 곱합니다GPUs. 예를 들어 가 4개인 경우 GPUs 훈련 작업의 경우 값은 인스턴스에서 알고리즘 컨테이너의 GPU 메모리 사용률입니다. 배치 변환 작업의 경우 값은 인스턴스에서 변환 컨테이너의 GPU 메모리 사용률입니다. 엔드포인트 변형의 경우 값은 인스턴스의 기본 및 보조 컨테이너의 GPU 메모리 사용률 합계입니다. 참고다중 인스턴스 작업의 경우 각 인스턴스는 GPU 메모리 사용률 지표를 보고합니다. 그러나 의 기본 보기는 모든 인스턴스의 평균 GPU 메모리 사용률을 CloudWatch 보여줍니다. 단위: 백분율 |
GPUMemoryUtilizationNormalized |
인스턴스의 컨테이너에서 사용하는 GPU 메모리의 정규화된 백분율입니다. 값 범위는 0%~100%입니다. 예를 들어 가 4GPUs개이고 |
GPUReservation |
인스턴스의 컨테이너로 GPUs 예약된 의 합계입니다. 값 범위는 0%~100%입니다. 추론 구성 요소에 대한 설정에서 GPU 예약을 로 설정합니다 |
GPUUtilization |
인스턴스의 컨테이너에서 사용하는 GPU 단위의 백분율입니다. 값은 0~100 범위일 수 있으며 의 수를 곱합니다GPUs. 예를 들어 가 4개인 경우 GPUs 훈련 작업의 경우 값은 인스턴스의 알고리즘 컨테이너 GPU 사용률입니다. 배치 변환 작업의 경우 값은 인스턴스의 변환 컨테이너 GPU 사용률입니다. 엔드포인트 변형의 경우 값은 인스턴스의 기본 및 보조 컨테이너 GPU 사용률의 합계입니다. 참고다중 인스턴스 작업의 경우 각 인스턴스는 GPU 사용률 지표를 보고합니다. 그러나 의 기본 보기는 모든 인스턴스의 평균 GPU 사용률을 CloudWatch 보여줍니다. 단위: 백분율 |
GPUUtilizationNormalized |
인스턴스의 컨테이너에서 사용하는 GPU 단위의 정규화된 백분율입니다. 값 범위는 0%~100%입니다. 예를 들어 가 4GPUs개이고 |
MemoryReservation |
인스턴스의 컨테이너에서 예약한 메모리의 합계입니다. 값 범위는 0%~100%입니다. 추론 구성 요소에 대한 설정에서 |
MemoryUtilization |
인스턴스의 컨테이너에서 사용하는 메모리의 비율(%)입니다. 이 값 범위는 0%~100%입니다. 처리 작업의 경우 이 값은 인스턴스에 있는 처리 컨테이너의 메모리 사용률입니다.훈련 작업의 경우 이 값은 인스턴스에 있는 알고리즘 컨테이너의 메모리 사용률입니다. 배치 변환 작업의 경우 이 값은 인스턴스에 있는 변환 컨테이너의 메모리 사용률입니다. 엔드포인트 변환의 경우 이 값은 인스턴스에 있는 기본 및 보조 컨테이너의 메모리 사용률 총합입니다. 단위: 백분율 참고다중 인스턴스 작업의 경우, 각 인스턴스가 메모리 사용률 지표를 보고합니다. 그러나 의 기본 보기는 모든 인스턴스의 평균 메모리 사용률을 CloudWatch 보여줍니다. |
처리 작업, 훈련 작업 및 배치 변환 작업 인스턴스 지표의 차원
측정기준 | 설명 |
---|---|
Host |
처리 작업의 경우 이 차원의 값은 훈련 작업의 경우 이 차원의 값은 배치 변환 작업의 경우 이 차원의 값은 |
SageMaker 추론 추천 작업 지표
/aws/sagemaker/InferenceRecommendationsJobs
네임스페이스에는 추론 추천 작업에 대한 다음 지표가 포함됩니다.
추론 추천 지표
지표 | 설명 |
---|---|
ClientInvocations |
추론 추천에서 관찰한 모델 엔드포인트로 전송된 단위: 없음 유효 통계: Sum |
ClientInvocationErrors |
추론 추천에서 관찰한 실패한 단위: 없음 유효 통계: Sum |
ClientLatency |
추론 추천에서 관찰한 단위: 밀리초 유효 통계: Average, Sum, Min, Max, Sample Count, Percentiles |
NumberOfUsers |
모델 엔드포인트에 단위: 없음 유효 통계: Max, Min, Average |
추론 추천 작업 지표의 차원
측정기준 | 설명 |
---|---|
JobName |
지정된 추론 추천 작업에 대한 추론 추천 작업 지표를 필터링합니다. |
EndpointName |
지정된 엔드포인트에 대한 추론 추천 작업 지표를 필터링합니다. |
SageMaker Ground Truth 지표
Ground Truth 지표
지표 | 설명 |
---|---|
ActiveWorkers |
작업을 제출, 공개 또는 거부한 프라이빗 작업팀의 활성 작업자 한 명. 총 활성 작업자 수를 구하려면 Sum(합계) 통계를 사용하세요. Ground Truth는 각 개별 단위: 없음 유효한 통계: Sum, Sample Count |
DatasetObjectsAutoAnnotated |
레이블 지정 작업에서 자동으로 주석이 추가되는 데이터 세트 객체의 수입니다. 이 지표는 자동화 레이블 지정 작업을 활성화한 경우에만 방출됩니다. 레이블 지정 작업 진행 상황을 보려면 Max 지표를 사용합니다. 단위: 없음 유효한 통계: Max |
DatasetObjectsHumanAnnotated |
레이블 지정 작업에서 사람이 주석을 추가한 데이터 세트 객체의 수입니다. 레이블 지정 작업 진행 상황을 보려면 Max 지표를 사용합니다. 단위: 없음 유효한 통계: Max |
DatasetObjectsLabelingFailed |
레이블 지정 작업에서 레이블 지정에 실패한 데이터 세트 객체의 수입니다. 레이블 지정 작업 진행 상황을 보려면 Max 지표를 사용합니다. 단위: 없음 유효한 통계: Max |
JobsFailed |
단일 레이블 지정 작업이 실패했습니다. 실패한 총 레이블 지정 작업 수를 가져오려면 Sum(합계) 통계를 사용합니다. 단위: 없음 유효한 통계: Sum, Sample Count |
JobsSucceeded |
단일 레이블 지정 작업이 성공했습니다. 성공한 총 레이블 지정 작업의 수를 가져오려면 Sum 통계를 사용합니다. 단위: 없음 유효한 통계: Sum, Sample Count |
JobsStopped |
단일 레이블 지정 작업이 중단되었습니다. 중지된 총 레이블 지정 작업 수를 가져오려면 Sum 통계를 사용합니다. 단위: 없음 유효한 통계: Sum, Sample Count |
TasksAccepted |
한 작업자가 단일 작업을 수락했습니다. 작업자가 수락한 총 작업 수를 구하려면 Sum(합계) 통계를 사용하세요. Ground Truth는 각 개별 단위: 없음 유효한 통계: Sum, Sample Count |
TasksDeclined |
한 작업자가 단일 작업을 거부했습니다. 작업자가 거부한 총 작업 수를 구하려면 Sum(합계) 통계를 사용하세요. Ground Truth는 각 개별 단위: 없음 유효한 통계: Sum, Sample Count |
TasksReturned |
단일 작업이 반환되었습니다. 반환된 총 작업 수를 구하려면 Sum(합계) 통계를 사용하세요. Ground Truth는 각 개별 단위: 없음 유효한 통계: Sum, Sample Count |
TasksSubmitted |
프라이빗 작업자가 단일 작업을 제출/완료했습니다. 작업자가 제출한 총 작업 수를 구하려면 Sum(합계) 통계를 사용하세요. Ground Truth는 각 개별 단위: 없음 유효한 통계: Sum, Sample Count |
TimeSpent |
프라이빗 작업자가 완료한 작업에 소요된 시간입니다. 작업자가 일시 중지하거나 휴식을 취한 시간은 이 지표에 포함되지 않습니다. Ground Truth는 각 단위: 초 유효한 통계: Sum, Sample Count |
TotalDatasetObjectsLabeled |
레이블 지정 작업에서 성공적으로 레이블이 지정된 데이터 세트 객체의 수입니다. 레이블 지정 작업 진행 상황을 보려면 Max 지표를 사용합니다. 단위: 없음 유효한 통계: Max |
Dimensions for Dataset Object Metrics(데이터 세트 객체 지표의 차원)
측정기준 | 설명 |
---|---|
LabelingJobName |
레이블 지정 작업에 대한 데이터 세트 객체 수 지표를 필터링합니다. |
Amazon SageMaker 특성 저장소 지표
특성 스토어 소비 지표
지표 | 설명 |
---|---|
ConsumedReadRequestsUnits |
지정한 시간 동안 소비한 읽기 단위의 수. 특성 스토어 런타임 작업 및 해당 특성 그룹에 사용된 읽기 단위를 검색할 수 있습니다. 단위: 없음 유효한 통계: All |
ConsumedWriteRequestsUnits |
지정한 시간 동안 소비한 쓰기 단위의 수. 특성 스토어 런타임 작업 및 해당 특성 그룹에 사용된 쓰기 단위를 검색할 수 있습니다. 단위: 없음 유효한 통계: All |
ConsumedReadCapacityUnits |
지정된 기간 동안 사용된 프로비저닝된 읽기 용량 단위의 수입니다. 특성 저장소 런타임 작업 및 해당 특성 그룹에 대해 소비된 읽기 용량 단위를 검색할 수 있습니다. 단위: 없음 유효한 통계: All |
ConsumedWriteCapacityUnits |
지정된 기간 동안 사용된 프로비저닝된 쓰기 용량 단위의 수입니다. 특성 저장소 런타임 작업 및 해당 특성 그룹에 대해 소비된 쓰기 용량 단위를 검색할 수 있습니다. 단위: 없음 유효한 통계: All |
특성 스토어 소비 지표 차원
측정기준 | 설명 |
---|---|
FeatureGroupName , OperationName |
지정한 특성 그룹 및 작업의 특성 스토어 런타임 소비 지표를 필터링합니다. |
특성 스토어 운영 지표
지표 | 설명 |
---|---|
Invocations |
지정된 기간 동안 특성 스토어 런타임 작업에 수행된 요청 수입니다. 단위: 없음 유효 통계: Sum |
Operation4XXErrors |
작업이 4xx HTTP 응답 코드를 반환한 특성 저장소 런타임 작업에 대한 요청 수입니다. 각 4xx 응답에 대해 1이 전송되고, 그렇지 않으면 0이 전송됩니다. 단위: 없음 유효한 통계: Average, Sum |
Operation5XXErrors |
작업이 5xx HTTP 응답 코드를 반환한 기능 스토어 런타임 작업에 대한 요청 수입니다. 각 5xx 응답에 대해 1이 전송되고, 그렇지 않으면 0이 전송됩니다. 단위: 없음 유효한 통계: Average, Sum |
ThrottledRequests |
특성 스토어 런타임 작업에 요청되었으나 조절을 받은 요청 수입니다. 제한된 요청마다 1이 전송되고, 그렇지 않으면 0이 전송됩니다. 단위: 없음 유효한 통계: Average, Sum |
Latency |
특성 스토어 런타임 작업에의 요청을 처리하는 시간 간격입니다. 이 간격은 요청을 SageMaker 받은 시점부터 클라이언트에 응답을 반환할 때까지 측정됩니다. 단위: 마이크로초 유효 통계: Average, Sum, Min, Max, Sample Count, Percentiles |
특성 스토어 운영 지표 차원
측정기준 | 설명 |
---|---|
|
지정한 특성 그룹 및 작업의 특성 스토어 런타임 운영 지표를 필터링합니다. , GetRecord PutRecord및 와 같은 비 배치 작업에 이러한 차원을 사용할 수 있습니다 DeleteRecord. |
OperationName |
지정한 작업의 특성 스토어 런타임 운영 지표를 필터링합니다. 와 같은 배치 작업에 이 차원을 사용할 수 있습니다 BatchGetRecord. |
SageMaker 파이프라인 지표
AWS/Sagemaker/ModelBuildingPipeline
네임스페이스에는 파이프라인 실행에 대한 다음 지표가 포함되어 있습니다.
파이프라인 실행 지표에는 두 가지 범주가 있습니다.
-
모든 파이프라인의 실행 지표 - 계정 수준 파이프라인 실행 지표 (현재 계정의 모든 파이프라인)
-
파이프라인별 실행 지표 - 파이프라인별 파이프라인 실행 지표
지표는 1분 간격으로 제공됩니다.
파이프라인 실행 지표
지표 | 설명 |
---|---|
ExecutionStarted |
시작된 파이프라인 실행 수입니다. 단위: 개 유효한 통계: Average, Sum |
ExecutionFailed |
실패한 파이프라인 실행 수입니다. 단위: 개 유효한 통계: Average, Sum |
ExecutionSucceeded |
성공한 파이프라인 실행 수입니다. 단위: 개 유효한 통계: Average, Sum |
ExecutionStopped |
중지된 파이프라인 실행 수입니다. 단위: 개 유효한 통계: Average, Sum |
ExecutionDuration |
파이프라인이 실행된 기간 (밀리초). 단위: 밀리초 유효 통계: Average, Sum, Min, Max, Sample Count |
파이프라인별 실행 지표 차원
측정기준 | 설명 |
---|---|
PipelineName |
지정된 파이프라인의 파이프라인 실행 지표를 필터링합니다. |
파이프라인 단계 지표
AWS/Sagemaker/ModelBuildingPipeline
네임스페이스에는 파이프라인 단계에 대한 다음 지표가 포함되어 있습니다.
지표는 1분 간격으로 제공됩니다.
지표 | 설명 |
---|---|
StepStarted |
시작된 단계의 수입니다. 단위: 개 유효한 통계: Average, Sum |
StepFailed |
실패한 단계의 수입니다. 단위: 개 유효한 통계: Average, Sum |
StepSucceeded |
성공한 단계의 수입니다. 단위: 개 유효한 통계: Average, Sum |
StepStopped |
중지된 단계의 수입니다. 단위: 개 유효한 통계: Average, Sum |
StepDuration |
단계가 실행된 기간 (밀리초). 단위: 밀리초 유효 통계: Average, Sum, Min, Max, Sample Count |
파이프라인 단계 지표의 차원
측정기준 | 설명 |
---|---|
PipelineName , StepName |
지정된 파이프라인 및 단계의 단계 지표를 필터링합니다. |