비동기 엔드포인트에서 지표를 추적하기 위한 경보 및 로그 - Amazon SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

비동기 엔드포인트에서 지표를 추적하기 위한 경보 및 로그

원시 데이터를 CloudWatch수집하고 읽기 가능한 실시간에 가까운 지표로 처리하는 Amazon 를 SageMaker 사용하여 모니터링할 수 있습니다. Amazon 를 사용하면 과거 정보에 액세스하고 웹 애플리케이션 또는 서비스의 성능에 대한 더 나은 관점을 얻을 CloudWatch수 있습니다. Amazon 에 대한 자세한 내용은 Amazon이란 무엇입니까 CloudWatch?를 CloudWatch참조하세요.

를 사용한 모니터링 CloudWatch

아래 지표는 AWS/SageMaker 네임스페이스에 있는 비동기 엔드포인트에 대한 전체 지표 목록입니다. 엔드포인트에 비동기 추론이 활성화된 경우 아래에 나열되지 않은 모든 지표는 게시되지 않습니다. 이러한 지표에는 다음이 포함되지만 이에 국한되지는 않습니다.

  • OverheadLatency

  • Invocations

  • InvocationsPerInstance

일반적인 엔드포인트 지표

이러한 지표는 오늘 실시간 엔드포인트에 대해 게시된 지표와 동일합니다. Amazon 의 다른 지표에 대한 자세한 내용은 Amazon SageMaker 로 모니터링을 CloudWatch CloudWatch참조하세요.

지표 이름 설명 유닛/통계

Invocation4XXErrors

모델이 4xx HTTP 응답 코드를 반환한 요청 수입니다. 각 4xx 응답에서 1이 전송되고, 그 외의 경우에는 0이 전송됩니다.

단위: 없음

유효한 통계: Average, Sum

Invocation5XXErrors

모델이 5xx HTTP 응답 코드를 반환한 InvokeEndpoint 요청 수입니다. 각 5xx 응답에서 1이 전송되고, 그 외의 경우에는 0이 전송됩니다.

단위: 없음

유효한 통계: Average, Sum

ModelLatency

에서 본 대로 모델이 응답하는 데 걸리는 시간 간격입니다 SageMaker. 이 간격에는 요청을 전송하고 모델의 컨테이너에서 응답을 가져오는 데 걸리는 로컬 통신 시간과 컨테이너에서 추론을 완료하는 데 걸리는 시간도 포함됩니다.

단위: 마이크로초

유효 통계: Average, Sum, Min, Max, Sample Count

비동기 추론 엔드포인트 지표

이러한 지표는 비동기 추론이 활성화된 엔드포인트에 대해 게시됩니다. 다음 지표는 EndpointName차원으로 게시됩니다..

지표 이름 설명 단위/통계

ApproximateBacklogSize

엔드포인트 대기열에 있는 항목 중 현재 처리 중이거나 아직 처리되지 않은 항목 수입니다.

단위: 개

유효한 통계: 평균, 최대, 최소

ApproximateBacklogSizePerInstance

대기열에 있는 항목 수를 엔드포인트 뒤의 인스턴스 수로 나눈 값입니다. 이 지표는 주로 비동기 지원 엔드포인트에 대한 애플리케이션 오토 스케일링을 설정하는 데 사용됩니다.

단위: 개

유효한 통계: 평균, 최대, 최소

ApproximateAgeOfOldestRequest

대기열에 있는 가장 오래된 요청의 보존 기간입니다.

단위: 초

유효한 통계: 평균, 최대, 최소

HasBacklogWithoutCapacity

대기열에 요청이 있지만 엔드포인트 뒤에 있는 인스턴스가 없을 때 이 지표의 값은 1입니다. 다른 모든 경우에는 이 값은 0입니다. 이 지표를 사용하면 대기열에서 새 요청을 수신할 때 엔드포인트를 0개 인스턴스에서 오토 스케일링할 수 있습니다.

단위: 개수

유효 통계: Average

다음 지표는 EndpointNameVariantName차원으로 게시됩니다..

지표 이름 설명 단위/통계

RequestDownloadFailures

Amazon S3에서 요청을 다운로드하는 중 문제가 발생하여 추론 실패가 발생하는 경우

단위: 개

유효 통계: Sum

ResponseUploadFailures

Amazon S3에 응답을 업로드하는 중 문제가 발생하여 추론 실패가 발생하는 경우

단위: 개

유효 통계: Sum

NotificationFailures

알림을 게시하는 데 문제가 발생한 경우

단위: 개

유효 통계: Sum

RequestDownloadLatency

요청 페이로드를 다운로드하는 데 걸린 총 시간입니다.

단위: 마이크로초

유효 통계: Average, Sum, Min, Max, Sample Count

ResponseUploadLatency

응답 페이로드를 업로드하는 데 걸린 총 시간입니다.

단위: 마이크로초

유효 통계: Average, Sum, Min, Max, Sample Count

ExpiredRequests

지정된 요청에 도달하여 실패한 대기열의 요청 수입니다TTL.

단위: 개

유효 통계: Sum

InvocationFailures

어떤 이유로든 호출이 실패한 경우

단위: 개

유효 통계: Sum

InvocationsProcesssed

엔드포인트에서 처리한 비동기 호출 수

단위: 개

유효 통계: Sum

TimeInBacklog

요청이 처리되기 전에 대기열에 있었던 총 시간입니다. 여기에는 실제 처리 시간(예: 다운로드 시간, 업로드 시간, 모델 지연 시간)은 포함되지 않습니다.

단위: 밀리초

유효 통계: Average, Sum, Min, Max, Sample Count

TotalProcessingTime

추론 요청이 에 의해 수신된 시간부터 요청이 처리를 완료한 시간 SageMaker 까지입니다. 여기에는 백로그에 소요되는 시간과 응답 알림을 업로드하고 전송하는 시간(있는 경우)이 포함됩니다.

단위: 밀리초

유효 통계: Average, Sum, Min, Max, Sample Count

Amazon SageMaker 비동기 추론에는 호스트 수준 지표도 포함됩니다. 호스트 수준 지표에 대한 자세한 내용은 SageMaker 작업 및 엔드포인트 지표를 참조하세요.

로그

계정의 Amazon에 게시된 모델 컨테이너 로그 외에도 추론 요청을 추적하고 디버깅하기 위한 새 플랫폼 로그도 얻을 CloudWatch 수 있습니다.

새 로그는 엔드포인트 로그 그룹 아래에 게시됩니다.

/aws/sagemaker/Endpoints/[EndpointName]

로그 스트림 이름은 다음과 같이 구성됩니다.

[production-variant-name]/[instance-id]/data-log.

로그 라인에는 요청의 추론 ID가 포함되므로 오류를 특정 요청에 쉽게 매핑할 수 있습니다.