Cookie の設定を選択する

当社は、当社のサイトおよびサービスを提供するために必要な必須 Cookie および類似のツールを使用しています。当社は、パフォーマンス Cookie を使用して匿名の統計情報を収集することで、お客様が当社のサイトをどのように利用しているかを把握し、改善に役立てています。必須 Cookie は無効化できませんが、[カスタマイズ] または [拒否] をクリックしてパフォーマンス Cookie を拒否することはできます。

お客様が同意した場合、AWS および承認された第三者は、Cookie を使用して便利なサイト機能を提供したり、お客様の選択を記憶したり、関連する広告を含む関連コンテンツを表示したりします。すべての必須ではない Cookie を受け入れるか拒否するには、[受け入れる] または [拒否] をクリックしてください。より詳細な選択を行うには、[カスタマイズ] をクリックしてください。

Amazon SageMaker AI で Triton Inference Server を使用するためのリソース

フォーカスモード
Amazon SageMaker AI で Triton Inference Server を使用するためのリソース - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

SageMaker AI を使用すると、NVIDIA Triton 推論サーバーでカスタムコードを使用してモデルをデプロイできます。SageMaker AI で Triton Inference Server を使用する方法については、次のリソースを参照してください。

Triton Inference Server コンテナの開発を通してこの機能を利用できます。これらのコンテナには、NVIDIA Triton Inference Server、一般的な ML フレームワークのサポート、SageMaker AI のパフォーマンスを最適化するための便利な環境変数が含まれます。使用可能な Deep Learning Containers イメージの完全なリストについては、「使用可能な Deep Learning Containers イメージ」を参照してください。Deep Learning Containers イメージは保守されており、セキュリティパッチで定期的に更新されています。

SageMaker AI モデルの他のコンテナと同様に、SageMaker Python SDK で Triton 推論サーバーコンテナを使用できます。ただし、SageMaker Python SDK の使用は任意です。Triton 推論サーバーコンテナは、 AWS CLI および で使用できます AWS SDK for Python (Boto3)。

NVIDIA Triton Inference Server の詳細については、Triton ドキュメントを参照してください。

推論

注記

Triton Python バックエンドは、共有メモリ (SHMEM) を使用してコードを Triton に接続します。SageMaker AI Inference は、インスタンスメモリの最大半分を SHMEM として提供するため、SHMEM サイズを大きくするためにより多くのメモリを持つインスタンスを使用できます。

推論では、トレーニング済みの ML モデルを Triton Inference Server で使用して、SageMaker AI で推論ジョブをデプロイできます。

Triton Inference Server コンテナの主な機能は次のとおりです。

  • 複数フレームワークのサポート: Triton は、すべての主要な機械学習フレームワークからのモデルのデプロイに使用できます。Triton は TensorFlow GraphDef、SavedModel、ONNX、PyTorch TorchScript、TensorRT、カスタムの Python/C++ のモデル形式をサポートしています。

  • モデルのパイプライン: Triton のモデルアンサンブルは、事前/事後処理ロジックと、それらの間の入力および出力テンソルの接続を持つ、1 モデルからなるパイプラインを意味します。アンサンブルが 1 件の推論リクエストを受け取ると、パイプライン全体の実行がトリガーされます。

  • モデルの同時実行: 同じモデルの複数のインスタンスを、同じ GPU または複数の GPU で同時に実行できます。

  • 動的バッチ処理: Triton には複数の組み込みスケジューリングアルゴリズムとバッチ処理アルゴリズムがあり、バッチ処理をサポートするモデルでは、個々の推論リクエストをまとめて、推論スループットを向上させます。これらのスケジューリングおよびバッチ処理の決定は、推論をリクエストするクライアントには透過的です。

  • 多様な CPU と GPU のサポート: 柔軟性を最大化し、不均一なコンピューティング要件をサポートするために、モデルは CPU または GPU で実行できるようになっています。

何をしたいですか?

トレーニング済みの PyTorch モデルを SageMaker AI にデプロイしたい。

Jupyter Notebook の例については、Triton 推論サーバーの例を使用した PyTorch Resnet50 モデルのデプロイを参照してください。

トレーニング済みの Hugging Face モデルを SageMaker AI にデプロイしたい。

Jupyter Notebook の例については、Triton 推論サーバーの例を使用した PyTorch BERT モデルのデプロイを参照してください。

プライバシーサイト規約Cookie の設定
© 2025, Amazon Web Services, Inc. or its affiliates.All rights reserved.