CPU バックアップされたインスタンスを使用するマルチモデルエンドポイントでサポートされているアルゴリズム、フレームワーク、インスタンス GPU バックアップされたインスタンスを使用するマルチモデルエンドポイントでサポートされているアルゴリズム、フレームワーク、インスタンス

マルチモデルエンドポイントでサポートされるアルゴリズム、フレームワーク、インスタンス

マルチモデルエンドポイントで使用できるアルゴリズム、フレームワーク、インスタンスタイプについては、以下のセクションを参照してください。

CPU バックアップされたインスタンスを使用するマルチモデルエンドポイントでサポートされているアルゴリズム、フレームワーク、インスタンス

次のアルゴリズムおよびフレームワークの推論コンテナは、マルチモデルエンドポイントをサポートしています。

他のフレームワークまたはアルゴリズムを使用するには、 SageMaker AI 推論ツールキットを使用して、マルチモデルエンドポイントをサポートするコンテナを構築します。詳細については、 SageMaker AI マルチモデルエンドポイント用の独自のコンテナを構築するを参照してください。

マルチモデルエンドポイントは、すべてのCPUインスタンスタイプをサポートします。

GPU バックアップされたインスタンスを使用するマルチモデルエンドポイントでサポートされているアルゴリズム、フレームワーク、インスタンス

マルチモデルエンドポイントでの複数のGPUバッキングされたモデルのホスティングは、SageMaker AI Triton 推論サーバーを通じてサポートされています。これにより、NVIDIA® TensorRT™、 PyTorch、、MXNetPython、ONNX、、scikit-learnXGBoost、Open RandomForest、カスタム C++ などVINO、すべての主要な推論フレームワークがサポートされます。

他のフレームワークやアルゴリズムを使用するには、Python または C++ 用の Triton バックエンドを使用してモデルロジックを記述し、任意のカスタムモデルを提供できます。サーバーの準備が整ったら、1 つのエンドポイントに何百ものディープラーニングモデルのデプロイを開始できます。

マルチモデルエンドポイントは、次のGPUインスタンスタイプをサポートします。

インスタンスファミリー	インスタンスタイプ	vCPUs	v あたりのメモリの GiB CPU	GPUs	GPU メモリ
p2	ml.p2.xlarge	4	15.25	1	12
p3	ml.p3.2xlarge	8	7.62	1	16
g5	ml.g5.xlarge	4	4	1	24
g5	ml.g5.2xlarge	8	4	1	24
g5	ml.g5.4xlarge	16	4	1	24
g5	ml.g5.8xlarge	32	4	1	24
g5	ml.g5.16xlarge	64	4	1	24
g4dn	ml.g4dn.xlarge	4	4	1	16
g4dn	ml.g4dn.2xlarge	8	4	1	16
g4dn	ml.g4dn.4xlarge	16	4	1	16
g4dn	ml.g4dn.8xlarge	32	4	1	16
g4dn	ml.g4dn.16xlarge	64	4	1	16

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

マルチモデルエンドポイント

マルチモデルエンドポイントのデプロイのためのインスタンスの推奨事項