CPU 지원되는 인스턴스를 사용하여 다중 모델 엔드포인트에 지원되는 알고리즘, 프레임워크 및 인스턴스 GPU 지원되는 인스턴스를 사용하여 다중 모델 엔드포인트에 지원되는 알고리즘, 프레임워크 및 인스턴스

다중 모델 엔드포인트에 지원되는 알고리즘, 프레임워크 및 인스턴스

다중 모델 엔드포인트에서 사용할 수 있는 알고리즘, 프레임워크 및 인스턴스 유형에 대한 자세한 내용은 다음 섹션을 참조하세요.

CPU 지원되는 인스턴스를 사용하여 다중 모델 엔드포인트에 지원되는 알고리즘, 프레임워크 및 인스턴스

다음 알고리즘 및 프레임워크의 추론 컨테이너는 다중 모델 엔드포인트를 지원합니다.

다른 프레임워크 또는 알고리즘을 사용하려면 SageMaker 추론 툴킷을 사용하여 다중 모델 엔드포인트를 지원하는 컨테이너를 구축합니다. 자세한 내용은 다중 모델 엔드포인트용 SageMaker 자체 컨테이너 구축을 참조하세요.

다중 모델 엔드포인트는 모든 CPU 인스턴스 유형을 지원합니다.

GPU 지원되는 인스턴스를 사용하여 다중 모델 엔드포인트에 지원되는 알고리즘, 프레임워크 및 인스턴스

다중 모델 엔드포인트에서 여러 GPU 지원 모델을 호스팅하는 것은 SageMaker Triton 추론 서버 를 통해 지원됩니다. 이는 NVIDIA® TensorRT ™, , PyTorch, MXNetPython, ONNX, XGBoost, scikit-learn, Open RandomForest, VINO사용자 지정 C++ 등과 같은 모든 주요 추론 프레임워크를 지원합니다.

다른 프레임워크 또는 알고리즘을 사용하려면 Python 또는 C++용 Triton 백엔드를 사용하여 모델 논리를 작성하고 맞춤형 모델을 제공할 수 있습니다. 서버가 준비되면 한 엔드포인트 뒤에서 수백 개의 딥 러닝 모델을 배포할 수 있습니다.

다중 모델 엔드포인트는 다음 GPU 인스턴스 유형을 지원합니다.

인스턴스 패밀리	인스턴스 유형	vCPUs	v당 메모리 GiB CPU	GPUs	GPU 메모리
p2	ml.p2.xlarge	4	15.25	1	12
p3	ml.p3.2xlarge	8	7.62	1	16
g5	ml.g5.xlarge	4	4	1	24
g5	ml.g5.2xlarge	8	4	1	24
g5	ml.g5.4xlarge	16	4	1	24
g5	ml.g5.8xlarge	32	4	1	24
g5	ml.g5.16xlarge	64	4	1	24
g4dn	ml.g4dn.xlarge	4	4	1	16
g4dn	ml.g4dn.2xlarge	8	4	1	16
g4dn	ml.g4dn.4xlarge	16	4	1	16
g4dn	ml.g4dn.8xlarge	32	4	1	16
g4dn	ml.g4dn.16xlarge	64	4	1	16

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

다중 모델 엔드포인트

다중 모델 엔드포인트 배포를 위한 인스턴스 권장 사항