호스팅 서비스에 모델을 배포하기 위한 모범 사례 SageMaker - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

호스팅 서비스에 모델을 배포하기 위한 모범 사례 SageMaker

SageMaker 호스팅 서비스를 사용하여 모델을 호스팅할 때는 다음 사항을 고려하십시오.

  • 일반적으로 클라이언트 애플리케이션은 SageMaker HTTPS 엔드포인트에 요청을 보내 배포된 모델로부터 추론을 얻습니다. 또한 테스트 도중 Jupyter notebook으로부터 이 엔드포인트로 요청을 전송할 수 있습니다.

  • 로 학습한 모델을 자체 배포 대상에 SageMaker 배포할 수 있습니다. 이렇게 하려면 모델 훈련으로 생성된 모델 결과물의 알고리즘별 형식을 알아야 합니다. 출력 형식에 대한 자세한 정보는 훈련을 위한 공통 데이터 형식에서 사용 중인 알고리즘과 관련이 있는 단원을 참조하세요.

  • 모델의 여러 변형을 동일한 SageMaker HTTPS 엔드포인트에 배포할 수 있습니다. 이는 프로덕션에 있는 모델의 변형을 테스트하는 데 유용합니다. 예를 들어, 모델을 프로덕션으로 배포했다고 가정합니다. 소량의 트래픽(예: 5%)을 새 모델로 보내서 모델의 변형을 테스트하려고 합니다. 이렇게 하려면 모델의 변형을 모두 설명하는 엔드포인트 구성을 생성합니다. 요청에 있는 ProductionVariantCreateEndPointConfig로 지정합니다. 자세한 정보는 ProductionVariant을 참조하세요.

  • ProductionVariant을(를) 구성하여 Application Auto Scaling을 사용할 수 있습니다. 자동 조정 구성에 대한 자세한 정보는 Amazon SageMaker 모델 자동 크기 조정 단원을 참조하세요.

  • 이미 서비스 불가능한 프로덕션으로 배포된 모델을 가져오지 않고 엔드포인트를 수정할 수 있습니다. 예를 들어 새 모델 변형을 추가하고, 기존 모델 변형의 ML 컴퓨팅 인스턴스 구성을 업데이트하거나 모델 변형 간 트래픽 배포를 변경할 수 있습니다. 엔드포인트를 수정하려면 새 엔드포인트 구성을 제공합니다. SageMaker 다운타임 없이 변경 사항을 구현합니다. 자세한 정보는 UpdateEndpointUpdateEndpointWeightsAndCapacities 단원을 참조하십시오.

  • 모델 배포 이후 모델 결과물을 변경 또는 삭제하거나 추론 코드를 변경하면 예측할 수 없는 결과가 생산됩니다. 모델 결과물을 변경 또는 삭제하거나 추론 코드를 변경해야 하는 경우 새 엔드포인트 구성을 제공함으로써 엔드포인트를 수정합니다. 새 엔드포인트 구성을 제공한 이후 기존 엔드포인트 구성에 따라 모델 결과물을 변경 또는 삭제할 수 있습니다.

  • 전체 데이터 세트에서 추론을 가져오려는 경우 호스팅 서비스의 대안으로 배치 변환 사용을 고려해 보세요. 자세한 정보는 배치 변환 사용 단원을 참조하세요.

가용 영역 전반에 걸쳐 여러 인스턴스 배포

모델을 호스팅할 때 강력한 엔드포인트를 만드세요. SageMaker엔드포인트는 가용 영역 중단 및 인스턴스 장애로부터 애플리케이션을 보호하는 데 도움이 될 수 있습니다. 중단이 발생하거나 인스턴스에 장애가 발생하는 경우, SageMaker 자동으로 가용 영역 전체에 인스턴스 분산을 시도합니다. 이러한 이유로 각 프로덕션 엔드포인트에 여러 인스턴스를 배포하는 것이 좋습니다.

Amazon Virtual Private Cloud(VPC)를 사용하는 경우 다른 가용 영역에서 각각 둘 이상의 Subnets을(를) 사용하여 VPC를 구성합니다. 중단이 발생하거나 인스턴스에 장애가 발생하는 경우 Amazon은 SageMaker 자동으로 인스턴스를 가용 영역 전체에 분산하려고 시도합니다.

일반적으로 보다 신뢰할 수 있는 성능을 얻으려면 여러 가용 영역에서 더 작은 인스턴스 유형을 사용하여 엔드포인트를 호스팅합니다.

고가용성을 위해 추론 구성 요소를 배포하십시오. 99.95% 의 가용성을 달성하려면 인스턴스 수에 대한 위의 권장 사항 외에도 추론 구성 요소가 2개 이상의 복사본을 포함하도록 구성해야 합니다. 또한 관리형 Auto Scaling 정책에서 최소 인스턴스 수도 2개로 설정하십시오.