搭配 Amazon 使用 Triton Inference Server 的資源 SageMaker - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

搭配 Amazon 使用 Triton Inference Server 的資源 SageMaker

SageMaker 可讓客戶使用自訂程式碼搭配 NVIDIA Triton 推論伺服器部署模型。使用下列資源來了解如何搭配 使用 Triton 推論伺服器 SageMaker。

此功能可透過 Triton 推論伺服器容器的開發使用。這些容器包括 NVIDIA Triton 推論伺服器、對常見 ML 架構的支援,以及可讓您最佳化 效能的實用環境變數 SageMaker。有關所有可用深度學習容器圖像的清單,請參閱可用的深度學習容器映像檔。深度學習容器映像檔會獲得維護並定期更新安全性修補程式。

您可以使用 Triton 推論伺服器容器搭配 SageMaker Python,SDK就像 SageMaker 模型中任何其他容器一樣。不過,使用 SageMaker Python SDK是選用的。您可以搭配 AWS CLI 和 使用 Triton 推論伺服器容器 AWS SDK for Python (Boto3)。

如需 NVIDIA Triton 推論伺服器的詳細資訊,請參閱 Triton 文件

Inference

注意

Triton Python 後端使用共用記憶體 (SHMEM) 將程式碼連接至 Triton。 SageMaker Inference 提供最多一半的執行個體記憶體,SHMEM因此您可以使用具有更多記憶體的執行個體來取得更大的SHMEM大小。

對於推論,您可以將訓練過的 ML 模型與 Triton Inference Server 搭配使用,透過 部署推論任務 SageMaker。

Triton 推論伺服器容器的一些主要功能包括:

  • 支援多種架構:Triton 可用來部署來自所有主要機器學習 (ML) 架構的模型。Triton 支援 TensorFlow GraphDef 和 SavedModel、ONNX PyTorch TorchScript、TensorRT 和自訂 Python/C++ 模型格式。

  • 模型管道:Triton 模型整體表示具有前/後處理邏輯的一個模型的管道,以及它們之間的輸入和輸出張量的連接。對整體的單一推論要求會觸發整個管道的執行。

  • 並行模型執行 :相同模型的多個執行個體可以同時在相同 GPU或多個 上執行GPUs。

  • 動態批次處理:針對支援批次處理的模型,Triton 具有多種內建的排程和批次處理演算法,可將個別推論請求結合在一起,以提高推論輸送量。這些排程和批次處理決策對於用戶端要求的推論來說是透明的。

  • 多樣化CPU和GPU支援 :這些模型可以在 上執行CPUs,GPUs或為了獲得最大的靈活性,並支援異質運算需求。

您想要做什麼?

我想要在 中部署訓練過的 PyTorch 模型 SageMaker。

如需 Jupyter Notebook 範例,請參閱使用 Triton 推論伺服器部署您的 PyTorch Resnet50 模型範例。

我想要在 中部署訓練有素的 Hugging Face 模型 SageMaker。

如需 Jupyter Notebook 範例,請參閱使用 Triton 推論伺服器部署模型 PyTorch BERT範例