SageMaker Hosting Services에 모델을 배포하는 모범 사례 - Amazon SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

SageMaker Hosting Services에 모델을 배포하는 모범 사례

호스팅 서비스를 사용하여 모델을 SageMaker 호스팅할 때는 다음을 고려하세요.

  • 일반적으로 클라이언트 애플리케이션은 배포된 모델에서 추론을 얻기 위해 SageMaker HTTPS 엔드포인트에 요청을 보냅니다. 또한 테스트 도중 Jupyter notebook으로부터 이 엔드포인트로 요청을 전송할 수 있습니다.

  • 로 훈련된 모델을 자체 배포 대상 SageMaker 에 배포할 수 있습니다. 이렇게 하려면 모델 훈련으로 생성된 모델 결과물의 알고리즘별 형식을 알아야 합니다. 출력 형식에 대한 자세한 정보는 훈련을 위한 공통 데이터 형식에서 사용 중인 알고리즘과 관련이 있는 단원을 참조하세요.

  • 모델의 여러 변형을 동일한 SageMaker HTTPS 엔드포인트에 배포할 수 있습니다. 이는 프로덕션에 있는 모델의 변형을 테스트하는 데 유용합니다. 예를 들어, 모델을 프로덕션으로 배포했다고 가정합니다. 소량의 트래픽(예: 5%)을 새 모델로 보내서 모델의 변형을 테스트하려고 합니다. 이렇게 하려면 모델의 변형을 모두 설명하는 엔드포인트 구성을 생성합니다. 요청에 있는 ProductionVariantCreateEndPointConfig로 지정합니다. 자세한 내용은 ProductionVariant 단원을 참조하십시오.

  • ProductionVariant을(를) 구성하여 Application Auto Scaling을 사용할 수 있습니다. 자동 조정 구성에 대한 자세한 정보는 Amazon SageMaker 모델의 자동 조정 단원을 참조하세요.

  • 이미 서비스 불가능한 프로덕션으로 배포된 모델을 가져오지 않고 엔드포인트를 수정할 수 있습니다. 예를 들어 새 모델 변형을 추가하고, 기존 모델 변형의 ML 컴퓨팅 인스턴스 구성을 업데이트하거나 모델 변형 간 트래픽 배포를 변경할 수 있습니다. 엔드포인트를 수정하려면 새 엔드포인트 구성을 제공합니다. 는 가동 중지 없이 변경 사항을 SageMaker 구현합니다. 자세한 내용은 UpdateEndpoint 및 섹션을 참조하세요UpdateEndpointWeightsAndCapacities.

  • 모델 배포 이후 모델 결과물을 변경 또는 삭제하거나 추론 코드를 변경하면 예측할 수 없는 결과가 생산됩니다. 모델 결과물을 변경 또는 삭제하거나 추론 코드를 변경해야 하는 경우 새 엔드포인트 구성을 제공함으로써 엔드포인트를 수정합니다. 새 엔드포인트 구성을 제공한 이후 기존 엔드포인트 구성에 따라 모델 결과물을 변경 또는 삭제할 수 있습니다.

  • 전체 데이터 세트에서 추론을 가져오려는 경우 호스팅 서비스의 대안으로 배치 변환 사용을 고려해 보세요. 자세한 정보는 Amazon을 사용한 추론을 위한 배치 변환 SageMaker 단원을 참조하세요.

가용 영역 전반에 걸쳐 여러 인스턴스 배포

모델을 호스팅할 때 강력한 엔드포인트를 생성합니다. SageMaker 엔드포인트는 가용 영역 중단 및 인스턴스 실패로부터 애플리케이션을 보호하는 데 도움이 될 수 있습니다. 중단이 발생하거나 인스턴스가 실패하면 는 자동으로 가용 영역에 인스턴스를 배포하려고 SageMaker 시도합니다. 따라서 각 프로덕션 엔드포인트에 대해 여러 인스턴스를 배포하는 것이 좋습니다.

Amazon Virtual Private Cloud(VPC)를 사용하는 경우 Subnets각각 다른 가용 영역에 VPC 있는 최소 2개의 로 를 구성합니다. 중단이 발생하거나 인스턴스가 실패하면 Amazon은 SageMaker 자동으로 가용 영역에 인스턴스를 배포하려고 시도합니다.

일반적으로 보다 신뢰할 수 있는 성능을 얻으려면 여러 가용 영역에서 더 작은 인스턴스 유형을 사용하여 엔드포인트를 호스팅합니다.

고가용성을 위해 추론 구성 요소를 배포합니다. 인스턴스 번호에 대한 위의 권장 사항 외에도 99.95% 가용성을 달성하려면 추론 구성 요소가 두 개 이상의 복사본을 갖도록 구성되어 있어야 합니다. 또한 관리형 자동 조정 정책에서 최소 인스턴스 수를 2로 설정합니다.