기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
다중 모델 엔드포인트에 지원되는 알고리즘, 프레임워크 및 인스턴스
다중 모델 엔드포인트에서 사용할 수 있는 알고리즘, 프레임워크 및 인스턴스 유형에 대한 자세한 내용은 다음 섹션을 참조하세요.
CPU 지원되는 인스턴스를 사용하여 다중 모델 엔드포인트에 지원되는 알고리즘, 프레임워크 및 인스턴스
다음 알고리즘 및 프레임워크의 추론 컨테이너는 다중 모델 엔드포인트를 지원합니다.
다른 프레임워크 또는 알고리즘을 사용하려면 SageMaker 추론 툴킷을 사용하여 다중 모델 엔드포인트를 지원하는 컨테이너를 구축합니다. 자세한 내용은 다중 모델 엔드포인트용 SageMaker 자체 컨테이너 구축을 참조하세요.
다중 모델 엔드포인트는 모든 CPU 인스턴스 유형을 지원합니다.
GPU 지원되는 인스턴스를 사용하여 다중 모델 엔드포인트에 지원되는 알고리즘, 프레임워크 및 인스턴스
다중 모델 엔드포인트에서 여러 GPU 지원 모델을 호스팅하는 것은 SageMaker Triton 추론 서버 를 통해 지원됩니다. 이는 NVIDIA® TensorRT ™, , PyTorch, MXNetPython, ONNX, XGBoost, scikit-learn, Open RandomForest, VINO사용자 지정 C++ 등과 같은 모든 주요 추론 프레임워크를 지원합니다.
다른 프레임워크 또는 알고리즘을 사용하려면 Python 또는 C++용 Triton 백엔드를 사용하여 모델 논리를 작성하고 맞춤형 모델을 제공할 수 있습니다. 서버가 준비되면 한 엔드포인트 뒤에서 수백 개의 딥 러닝 모델을 배포할 수 있습니다.
다중 모델 엔드포인트는 다음 GPU 인스턴스 유형을 지원합니다.
인스턴스 패밀리 | 인스턴스 유형 | vCPUs | v당 메모리 GiB CPU | GPUs | GPU 메모리 |
---|---|---|---|---|---|
p2 |
ml.p2.xlarge |
4 |
15.25 |
1 |
12 |
p3 |
ml.p3.2xlarge |
8 |
7.62 |
1 |
16 |
g5 |
ml.g5.xlarge |
4 |
4 |
1 |
24 |
g5 |
ml.g5.2xlarge |
8 |
4 |
1 |
24 |
g5 |
ml.g5.4xlarge |
16 |
4 |
1 |
24 |
g5 |
ml.g5.8xlarge |
32 |
4 |
1 |
24 |
g5 |
ml.g5.16xlarge |
64 |
4 |
1 |
24 |
g4dn |
ml.g4dn.xlarge |
4 |
4 |
1 |
16 |
g4dn |
ml.g4dn.2xlarge |
8 |
4 |
1 |
16 |
g4dn |
ml.g4dn.4xlarge |
16 |
4 |
1 |
16 |
g4dn |
ml.g4dn.8xlarge |
32 |
4 |
1 |
16 |
g4dn |
ml.g4dn.16xlarge |
64 |
4 |
1 |
16 |