추론 파이프라인 문제 해결 - Amazon SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

추론 파이프라인 문제 해결

추론 파이프라인 문제를 해결하려면 CloudWatch 로그와 오류 메시지를 사용합니다. Amazon SageMaker 내장 알고리즘이 포함된 파이프라인에서 사용자 지정 Docker 이미지를 사용하는 경우 권한 문제가 발생할 수도 있습니다. 필요한 권한을 부여하려면 Amazon Elastic Container Registry(AmazonECR) 정책을 생성합니다.

추론 파이프라인에 대한 Amazon ECR 권한 문제 해결

SageMaker 기본 제공 알고리즘이 포함된 파이프라인에서 사용자 지정 Docker 이미지를 사용하는 경우 Amazon ECR 정책이 필요합니다. 정책은 Amazon ECR리포지토리가 에 이미지를 가져올 수 있는 권한을 부여 SageMaker 하도록 허용합니다. 정책은 다음 권한을 추가해야 합니다.

{ "Version": "2008-10-17", "Statement": [ { "Sid": "allowSageMakerToPull", "Effect": "Allow", "Principal": { "Service": "sagemaker.amazonaws.com" }, "Action": [ "ecr:GetDownloadUrlForLayer", "ecr:BatchGetImage", "ecr:BatchCheckLayerAvailability" ] } ] }

CloudWatch 로그를 사용하여 SageMaker 추론 파이프라인 문제 해결

SageMaker 는 각 컨테이너의 다음 경로 CloudWatch 에서 Amazon에 추론 파이프라인을 배포하는 엔드포인트에 대한 컨테이너 로그를 게시합니다.

/aws/sagemaker/Endpoints/{EndpointName}/{Variant}/{InstanceId}/{ContainerHostname}

예를 들어 이 엔드포인트의 로그는 다음 로그 그룹 및 스트림에 게시됩니다.

EndpointName: MyInferencePipelinesEndpoint Variant: MyInferencePipelinesVariant InstanceId: i-0179208609ff7e488 ContainerHostname: MyContainerName1 and MyContainerName2
logGroup: /aws/sagemaker/Endpoints/MyInferencePipelinesEndpoint logStream: MyInferencePipelinesVariant/i-0179208609ff7e488/MyContainerName1 logStream: MyInferencePipelinesVariant/i-0179208609ff7e488/MyContainerName2

로그 스트림은 동일한 소스를 공유하는 로그 이벤트 시퀀스입니다. 의 각 개별 로그 소스 CloudWatch 는 별도의 로그 스트림을 구성합니다. 로그 그룹은 동일한 보존 기간, 모니터링 및 액세스 제어 설정을 공유하는 로그 스트림 그룹입니다.

로그 그룹 및 스트림 보기
  1. 에서 CloudWatch 콘솔을 엽니다https://console.aws.amazon.com/cloudwatch/.

  2. 탐색 페이지에서 로그를 선택합니다.

  3. 로그 그룹에서 MyInferencePipelinesEndpoint 필터를 켭니다.

    추론 파이프라인 엔드포인트에 대해 필터링된 CloudWatch 로그 그룹입니다.
  4. 로그 스트림을 보려면 CloudWatch 로그 그룹 페이지에서 를 MyInferencePipelinesEndpoint선택한 다음 로그 그룹 검색 을 선택합니다.

    추론 파이프라인의 CloudWatch 로그 스트림입니다.

가 SageMaker 게시하는 로그 목록은 섹션을 참조하세요추론 파이프라인 로그 및 지표.

추론 파이프라인 문제 해결을 위한 오류 메시지를 사용합니다.

추론 파이프라인 오류 메시지는 어떤 컨테이너에서 문제가 발생했는지 나타냅니다.

SageMaker 가 엔드포인트를 호출하는 동안 오류가 발생하면 서비스는 실패한 컨테이너를 나타내는 ModelError (오류 코드 424)를 반환합니다. 요청 페이로드(이전 컨테이너의 응답)가 5MB 제한을 초과하는 경우 는 다음과 같은 자세한 오류 메시지를 SageMaker 제공합니다.

상태 코드 200으로 MyContainerName1에서 응답을 수신했습니다. 그러나 MyContainerName1~ MyContainerName2의 요청 페이로드는 6000000바이트로, 최대 한도인 5MB를 초과했습니다.

엔드포인트를 생성하는 동안 컨테이너 SageMaker 가 ping 상태 확인에 실패하면 를 반환ClientError하고 마지막 상태 확인에서 ping 확인에 실패한 모든 컨테이너를 나타냅니다.