本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
SageMaker AI 可讓客戶使用自訂程式碼搭配 NVIDIA Triton 推論伺服器部署模型。使用下列資源來了解如何搭配 SageMaker AI 使用 Triton 推論伺服器。
此功能可透過 Triton 推論伺服器容器的開發使用。這些容器包括 NVIDIA Triton 推論伺服器、對常見 ML 架構的支援,以及可讓您最佳化 SageMaker AI 效能的實用環境變數。有關所有可用深度學習容器圖像的清單,請參閱可用的深度學習容器映像檔
您可以將 Triton 推論伺服器容器與 SageMaker Python SDK 搭配使用,就像使用 SageMaker AI 模型中的任何其他容器一樣。不過,使用 SageMaker Python SDK 是選擇性的。您可以搭配 AWS CLI 和 使用 Triton 推論伺服器容器 適用於 Python (Boto3) 的 AWS SDK。
如需 NVIDIA Triton 推論伺服器的詳細資訊,請參閱 Triton 文件
Inference
注意
Triton Python 後端使用共享內存 (SHMEM) 將您的代碼連接到 Triton。SageMaker AI Inference 提供最多一半的執行個體記憶體做為 SHMEM,因此您可以使用具有更多記憶體的執行個體來取得更大的 SHMEM 大小。
針對推論,您可以使用訓練過的 ML 模型搭配 Triton Inference Server,透過 SageMaker AI 部署推論任務。
Triton 推論伺服器容器的一些主要功能包括:
-
支援多種架構:Triton 可用來部署來自所有主要機器學習 (ML) 架構的模型。Triton 支援 TensorFlow 圖形定義和 SavedMode、ONNX、PyTorch TorchScript、TensorRT 和自訂 Python/C++ 模型格式。
-
模型管道:Triton 模型整體表示具有前/後處理邏輯的一個模型的管道,以及它們之間的輸入和輸出張量的連接。對整體的單一推論要求會觸發整個管道的執行。
-
並行模型執行:同一模型的多個執行個體可以在同一 GPU 或多個 GPU 上同時執行。
-
動態批次處理:針對支援批次處理的模型,Triton 具有多種內建的排程和批次處理演算法,可將個別推論請求結合在一起,以提高推論輸送量。這些排程和批次處理決策對於用戶端要求的推論來說是透明的。
-
多樣化的 CPU 和 GPU 支援:這些模型可以在 CPU 或 GPU 上執行,以獲得最大的靈活性並支援異質運算需求。
您想要做什麼?
- 我想要在 SageMaker AI 中部署已訓練的 PyTorch 模型。
-
如需 Jupyter 筆記本範例,請參閱使用 Triton 推論伺服器部署您的 PyTorch Resnet50 模型範例
。 - 我想要在 SageMaker AI 中部署訓練過的 Hugging Face 模型。
-
如需 Jupyter 筆記本範例,請參閱使用 Triton 推論伺服器部署您的 PyTorch BERT 模型範例
。