기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
Amazon SageMaker AI에서 Triton Inference Server를 사용하기 위한 리소스
SageMaker AI를 사용하면 고객이 NVIDIA Triton Inference Server와 함께 사용자 지정 코드를 사용하여 모델을 배포할 수 있습니다. 다음 리소스를 사용하여 Triton 추론 서버를 SageMaker AI와 함께 사용하는 방법을 알아봅니다.
이 기능은 Triton Inference Server 컨테이너의 개발을 통해 사용할 수 있습니다. 이러한 컨테이너에는 NVIDIA Triton Inference Server, 공통 ML 프레임워크 지원, SageMaker AI에서 성능을 최적화할 수 있는 유용한 환경 변수가 포함됩니다. 사용 가능한 모든 딥 러닝 컨테이너 이미지 목록은 사용 가능한 딥 러닝 컨테이너 이미지
SageMaker AI 모델의 다른 컨테이너와 마찬가지로 Triton 추론 서버 컨테이너를 SageMaker Python SDK와 함께 사용할 수 있습니다. 하지만 SageMaker Python SDK를 사용하는 것은 선택 사항입니다. Triton 추론 서버 컨테이너를 AWS CLI 및와 함께 사용할 수 있습니다 AWS SDK for Python (Boto3).
NVIDIA Triton Inference Server에 대한 자세한 내용은 Triton 설명서
Inference
참고
Triton Python 백엔드는 공유 메모리(SHMEM)를 사용하여 코드를 Triton에 연결합니다. SageMaker AI 추론은 인스턴스 메모리의 최대 절반을 SHMEM으로 제공하므로 더 큰 SHMEM 크기에 더 많은 메모리가 있는 인스턴스를 사용할 수 있습니다.
추론의 경우 Triton Inference Server와 함께 훈련된 ML 모델을 사용하여 SageMaker AI로 추론 작업을 배포할 수 있습니다.
Triton 추론 서버 컨테이너의 주요 기능 중 일부는 다음과 같습니다.
-
다중 프레임워크 지원: Triton을 사용하여 모든 주요 ML 프레임워크의 모델을 배포할 수 있습니다. Triton은 TensorFlow GraphDef 및 SavedModel, ONNX, PyTorch Torch Script, TensorRT 및 사용자 지정 Python/C+ 모델 형식을 지원합니다.
-
모델 파이프라인: Triton 모델 앙상블은 전/후 처리 로직과 이들 사이의 입력 및 출력 텐서 연결을 갖춘 하나의 모델의 파이프라인을 나타냅니다. 앙상블에 대한 단일 추론 요청은 전체 파이프라인의 실행을 트리거합니다.
-
동시 모델 실행: 동일한 모델의 여러 인스턴스를 동일한 GPU 또는 여러 GPU에서 동시에 실행할 수 있습니다.
-
동적 일괄 처리: 일괄 처리를 지원하는 모델의 경우 Triton에는 개별 추론 요청을 결합하여 추론 처리량을 개선하는 여러 개의 기본 제공 스케줄링 및 일괄 처리 알고리즘이 있습니다. 이러한 스케줄링 및 일괄 처리 결정은 추론을 요청하는 클라이언트에게 투명합니다.
-
다양한 CPU 및 GPU 지원: CPU 또는 GPU에서 모델을 실행하여 유연성을 극대화하고 이기종 컴퓨팅 요구 사항을 지원할 수 있습니다.
어떤 작업을 수행하려고 합니까?
- 훈련된 PyTorch 모델을 SageMaker AI에 배포하려고 합니다.
-
예제 Jupyter Notebook은 Triton Inference Server를 사용하여 PyTorch Resnet50 모델 배포하기 예제
를 참조하세요. - 훈련된 Hugging Face 모델을 SageMaker AI에 배포하려고 합니다.
-
예제 Jupyter Notebook은 Triton Inference Server를 사용하여 PyTorch BERT 모델 배포하기 예제
를 참조하세요.