在 Amazon 上使用 Triton 推理服务器的资源 SageMaker - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在 Amazon 上使用 Triton 推理服务器的资源 SageMaker

SageMaker 使客户能够使用 NVIDIA Triton 推理服务器的自定义代码部署模型。使用以下资源学习如何将 Triton 推理服务器与配合使用。 SageMaker

可通过开发 Triton Inference Server 容器来获得此功能。这些容器包括 NVIDIA Triton Inference Server、对常见机器学习框架的支持以及允许你优化性能的有用环境变量。 SageMaker有关所有可用深度学习容器映像的列表,请参阅可用的深度学习容器映像。深度学习容器映像会得到维护,并定期更新安全补丁。

你可以像在模型中使用任何其他容器SDK一样在 Pyth SageMaker on 中使用 Triton 推理服务器容器。 SageMaker 但是,使用 SageMaker Python SDK 是可选的。您可以将 Triton 推理服务器容器与和一起使用。 AWS CLI AWS SDK for Python (Boto3)

有关 NVIDIA Triton 推理服务器的更多信息,请参阅 Tr iton 文档。

推理

注意

Triton Python 后端使用共享内存 (SHMEM) 将你的代码连接到 Triton。 SageMaker 推理最多可提供一半的实例内存,SHMEM因此您可以使用具有更多内存的实例来处理更大的大SHMEM小。

为了进行推理,您可以将经过训练的 ML 模型与 Triton Inference Server 配合使用来部署推理作业。 SageMaker

Triton Inference Server 容器的一些关键特征包括:

  • 支持多个框架:Triton 可用于部署所有主要机器学习框架中的模型。Triton 支持 TensorFlow GraphDef 和 SavedModel、、ONNX PyTorch TorchScript、TensorRT 和自定义 Python/C++ 模型格式。

  • 模型管道:Triton 模型集合表示一个模型的管道,具有预处理/后处理逻辑和输入输出张量之间的连接。向一个集合提出一个推理请求,就会触发整个管道的执行。

  • 并行模型执行:同一模型的多个实例可以在同一个模型上同时运行,也GPU可以在多个模型上同时运行GPUs。

  • 动态批处理:对于支持批处理的模型,Triton 有多种内置的计划和批处理算法,这些算法可以将单个推理请求组合在一起以提高推理吞吐量。这些计划和批处理决策对请求推理的客户端是透明的。

  • 多样CPU性和GPU支持性:这些模型可以根据CPUs或执行,以GPUs获得最大的灵活性,并支持异构计算需求。

您需要做什么?

我想在中部署经过训练的 PyTorch 模型 SageMaker。

有关 Jupyter 笔记本的示例,请参阅使用 Triton 推理服务器部署你的 R PyTorch esnet50 模型示例。

我想在里面部署我训练过的 Hugging Face 模型 SageMaker。

有关 Jupyter 笔记本的示例,请参阅使用 Triton 推理服务器部署 PyTorch BERT模型示例。