翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
Amazon で Triton Inference Server を使用するためのリソース SageMaker
SageMaker では、NVIDIATriton Inference Server でカスタムコードを使用してモデルをデプロイできます。で Triton Inference Server を使用する方法については、次のリソースを参照してください SageMaker。
Triton Inference Server コンテナの開発を通してこの機能を利用できます。これらのコンテナには、NVIDIATriton Inference Server、一般的な ML フレームワークのサポート、 のパフォーマンスを最適化できる便利な環境変数が含まれます SageMaker。使用可能な Deep Learning Containers イメージの完全なリストについては、「使用可能な Deep Learning Containers イメージ
Triton Inference Server Container は、 SageMaker モデル内の他のコンテナSDKと同様に SageMaker Python で使用できます。ただし、 SageMaker Python の使用はオプションSDKです。Triton 推論サーバーコンテナは、 AWS CLI および で使用できます AWS SDK for Python (Boto3)。
NVIDIA Triton Inference Server の詳細については、Triton ドキュメント
推論
注記
Triton Python バックエンドは、共有メモリ (SHMEM) を使用してコードを Triton に接続します。 SageMaker 推論はインスタンスメモリの最大半分を提供するためSHMEM、より大きなSHMEMサイズでより多くのメモリを持つインスタンスを使用できます。
推論では、Triton Inference Server でトレーニング済みの ML モデルを使用して、 で推論ジョブをデプロイできます SageMaker。
Triton Inference Server コンテナの主な機能は次のとおりです。
-
複数フレームワークのサポート: Triton は、すべての主要な機械学習フレームワークからのモデルのデプロイに使用できます。Triton は SavedModel、 TensorFlow GraphDef 、ONNX PyTorch TorchScript、TensorRT 、およびカスタム Python/C++ モデル形式をサポートしています。
-
モデルのパイプライン: Triton のモデルアンサンブルは、事前/事後処理ロジックと、それらの間の入力および出力テンソルの接続を持つ、1 モデルからなるパイプラインを意味します。アンサンブルが 1 件の推論リクエストを受け取ると、パイプライン全体の実行がトリガーされます。
-
同時モデル実行 : 同じモデルの複数のインスタンスを同じ GPUまたは複数の で同時に実行できますGPUs。
-
動的バッチ処理: Triton には複数の組み込みスケジューリングアルゴリズムとバッチ処理アルゴリズムがあり、バッチ処理をサポートするモデルでは、個々の推論リクエストをまとめて、推論スループットを向上させます。これらのスケジューリングおよびバッチ処理の決定は、推論をリクエストするクライアントには透過的です。
-
多様化CPUとGPUサポート: モデルは、柔軟性を最大化し、異種コンピューティング要件をサポートするために、 CPUsまたは GPUs で実行できます。
何をしたいですか?
- トレーニング済み PyTorch モデルを にデプロイします SageMaker。
-
Jupyter Notebook のサンプルについては、「Triton Inference Server を使用した PyTorch Resnet50 モデルのデプロイ」の例
を参照してください。 - トレーニング済みの Hugging Face モデルを にデプロイしたい SageMaker。
-
Jupyter Notebook のサンプルについては、「Triton Inference Server を使用したモデルのデプロイ PyTorch BERT」の例
を参照してください。