기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
비동기 엔드포인트에서 지표를 추적하기 위한 경보 및 로그
원시 데이터를 CloudWatch수집하고 읽기 가능한 실시간에 가까운 지표로 처리하는 Amazon 를 SageMaker 사용하여 모니터링할 수 있습니다. Amazon 를 사용하면 과거 정보에 액세스하고 웹 애플리케이션 또는 서비스의 성능에 대한 더 나은 관점을 얻을 CloudWatch수 있습니다. Amazon 에 대한 자세한 내용은 Amazon이란 무엇입니까 CloudWatch?를 CloudWatch참조하세요.
를 사용한 모니터링 CloudWatch
아래 지표는 AWS/SageMaker
네임스페이스에 있는 비동기 엔드포인트에 대한 전체 지표 목록입니다. 엔드포인트에 비동기 추론이 활성화된 경우 아래에 나열되지 않은 모든 지표는 게시되지 않습니다. 이러한 지표에는 다음이 포함되지만 이에 국한되지는 않습니다.
OverheadLatency
Invocations
InvocationsPerInstance
일반적인 엔드포인트 지표
이러한 지표는 오늘 실시간 엔드포인트에 대해 게시된 지표와 동일합니다. Amazon 의 다른 지표에 대한 자세한 내용은 Amazon SageMaker 로 모니터링을 CloudWatch CloudWatch참조하세요.
지표 이름 | 설명 | 유닛/통계 |
---|---|---|
|
모델이 4xx HTTP 응답 코드를 반환한 요청 수입니다. 각 4xx 응답에서 1이 전송되고, 그 외의 경우에는 0이 전송됩니다. |
단위: 없음 유효한 통계: Average, Sum |
|
모델이 5xx HTTP 응답 코드를 반환한 InvokeEndpoint 요청 수입니다. 각 5xx 응답에서 1이 전송되고, 그 외의 경우에는 0이 전송됩니다. |
단위: 없음 유효한 통계: Average, Sum |
|
에서 본 대로 모델이 응답하는 데 걸리는 시간 간격입니다 SageMaker. 이 간격에는 요청을 전송하고 모델의 컨테이너에서 응답을 가져오는 데 걸리는 로컬 통신 시간과 컨테이너에서 추론을 완료하는 데 걸리는 시간도 포함됩니다. |
단위: 마이크로초 유효 통계: Average, Sum, Min, Max, Sample Count |
비동기 추론 엔드포인트 지표
이러한 지표는 비동기 추론이 활성화된 엔드포인트에 대해 게시됩니다. 다음 지표는 EndpointName
차원으로 게시됩니다..
지표 이름 | 설명 | 단위/통계 |
---|---|---|
|
엔드포인트 대기열에 있는 항목 중 현재 처리 중이거나 아직 처리되지 않은 항목 수입니다. |
단위: 개 유효한 통계: 평균, 최대, 최소 |
|
대기열에 있는 항목 수를 엔드포인트 뒤의 인스턴스 수로 나눈 값입니다. 이 지표는 주로 비동기 지원 엔드포인트에 대한 애플리케이션 오토 스케일링을 설정하는 데 사용됩니다. |
단위: 개 유효한 통계: 평균, 최대, 최소 |
|
대기열에 있는 가장 오래된 요청의 보존 기간입니다. |
단위: 초 유효한 통계: 평균, 최대, 최소 |
|
대기열에 요청이 있지만 엔드포인트 뒤에 있는 인스턴스가 없을 때 이 지표의 값은 |
단위: 개수 유효 통계: Average |
다음 지표는 EndpointName
및 VariantName
차원으로 게시됩니다..
지표 이름 | 설명 | 단위/통계 |
---|---|---|
|
Amazon S3에서 요청을 다운로드하는 중 문제가 발생하여 추론 실패가 발생하는 경우 |
단위: 개 유효 통계: Sum |
|
Amazon S3에 응답을 업로드하는 중 문제가 발생하여 추론 실패가 발생하는 경우 |
단위: 개 유효 통계: Sum |
|
알림을 게시하는 데 문제가 발생한 경우 |
단위: 개 유효 통계: Sum |
|
요청 페이로드를 다운로드하는 데 걸린 총 시간입니다. |
단위: 마이크로초 유효 통계: Average, Sum, Min, Max, Sample Count |
|
응답 페이로드를 업로드하는 데 걸린 총 시간입니다. |
단위: 마이크로초 유효 통계: Average, Sum, Min, Max, Sample Count |
|
지정된 요청에 도달하여 실패한 대기열의 요청 수입니다TTL. |
단위: 개 유효 통계: Sum |
|
어떤 이유로든 호출이 실패한 경우 |
단위: 개 유효 통계: Sum |
|
엔드포인트에서 처리한 비동기 호출 수 |
단위: 개 유효 통계: Sum |
|
요청이 처리되기 전에 대기열에 있었던 총 시간입니다. 여기에는 실제 처리 시간(예: 다운로드 시간, 업로드 시간, 모델 지연 시간)은 포함되지 않습니다. |
단위: 밀리초 유효 통계: Average, Sum, Min, Max, Sample Count |
|
추론 요청이 에 의해 수신된 시간부터 요청이 처리를 완료한 시간 SageMaker 까지입니다. 여기에는 백로그에 소요되는 시간과 응답 알림을 업로드하고 전송하는 시간(있는 경우)이 포함됩니다. |
단위: 밀리초 유효 통계: Average, Sum, Min, Max, Sample Count |
Amazon SageMaker 비동기 추론에는 호스트 수준 지표도 포함됩니다. 호스트 수준 지표에 대한 자세한 내용은 SageMaker 작업 및 엔드포인트 지표를 참조하세요.
로그
계정의 Amazon에 게시된 모델 컨테이너 로그 외에도 추론 요청을 추적하고 디버깅하기 위한 새 플랫폼 로그도 얻을 CloudWatch 수 있습니다.
새 로그는 엔드포인트 로그 그룹 아래에 게시됩니다.
/aws/sagemaker/Endpoints/
[EndpointName]
로그 스트림 이름은 다음과 같이 구성됩니다.
[production-variant-name]
/[instance-id]
/data-log.
로그 라인에는 요청의 추론 ID가 포함되므로 오류를 특정 요청에 쉽게 매핑할 수 있습니다.