翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
マルチモデルエンドポイントでサポートされるアルゴリズム、フレームワーク、インスタンス
マルチモデルエンドポイントで使用できるアルゴリズム、フレームワーク、インスタンスタイプについては、以下のセクションを参照してください。
CPU バックアップされたインスタンスを使用するマルチモデルエンドポイントでサポートされているアルゴリズム、フレームワーク、インスタンス
次のアルゴリズムおよびフレームワークの推論コンテナは、マルチモデルエンドポイントをサポートしています。
他のフレームワークまたはアルゴリズムを使用するには、 SageMaker AI 推論ツールキットを使用して、マルチモデルエンドポイントをサポートするコンテナを構築します。詳細については、 SageMaker AI マルチモデルエンドポイント用の独自のコンテナを構築する を参照してください。
マルチモデルエンドポイントは、すべてのCPUインスタンスタイプをサポートします。
GPU バックアップされたインスタンスを使用するマルチモデルエンドポイントでサポートされているアルゴリズム、フレームワーク、インスタンス
マルチモデルエンドポイントでの複数のGPUバッキングされたモデルのホスティングは、SageMaker AI Triton 推論サーバーを通じてサポートされています。これにより、NVIDIA® TensorRT™、 PyTorch、、MXNetPython、ONNX、、scikit-learnXGBoost、Open RandomForest、カスタム C++ などVINO、すべての主要な推論フレームワークがサポートされます。
他のフレームワークやアルゴリズムを使用するには、Python または C++ 用の Triton バックエンドを使用してモデルロジックを記述し、任意のカスタムモデルを提供できます。サーバーの準備が整ったら、1 つのエンドポイントに何百ものディープラーニングモデルのデプロイを開始できます。
マルチモデルエンドポイントは、次のGPUインスタンスタイプをサポートします。
インスタンスファミリー | インスタンスタイプ | vCPUs | v あたりのメモリの GiB CPU | GPUs | GPU メモリ |
---|---|---|---|---|---|
p2 |
ml.p2.xlarge |
4 |
15.25 |
1 |
12 |
p3 |
ml.p3.2xlarge |
8 |
7.62 |
1 |
16 |
g5 |
ml.g5.xlarge |
4 |
4 |
1 |
24 |
g5 |
ml.g5.2xlarge |
8 |
4 |
1 |
24 |
g5 |
ml.g5.4xlarge |
16 |
4 |
1 |
24 |
g5 |
ml.g5.8xlarge |
32 |
4 |
1 |
24 |
g5 |
ml.g5.16xlarge |
64 |
4 |
1 |
24 |
g4dn |
ml.g4dn.xlarge |
4 |
4 |
1 |
16 |
g4dn |
ml.g4dn.2xlarge |
8 |
4 |
1 |
16 |
g4dn |
ml.g4dn.4xlarge |
16 |
4 |
1 |
16 |
g4dn |
ml.g4dn.8xlarge |
32 |
4 |
1 |
16 |
g4dn |
ml.g4dn.16xlarge |
64 |
4 |
1 |
16 |