翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
マルチモデルエンドポイントでサポートされているアルゴリズム、フレームワーク、インスタンス
マルチモデルエンドポイントで使用できるアルゴリズム、フレームワーク、インスタンスタイプについては、以下のセクションを参照してください。
CPU バックアップされたインスタンスを使用するマルチモデルエンドポイントでサポートされているアルゴリズム、フレームワーク、インスタンス
次のアルゴリズムおよびフレームワークの推論コンテナは、マルチモデルエンドポイントをサポートしています。
他のフレームワークまたはアルゴリズムを使用するには、 SageMaker 推論ツールキットを使用して、マルチモデルエンドポイントをサポートするコンテナを構築します。詳細については、マルチモデルエンドポイント用の SageMaker独自のコンテナを構築する を参照してください。
マルチモデルエンドポイントは、すべてのCPUインスタンスタイプをサポートします。
GPU バックアップされたインスタンスを使用するマルチモデルエンドポイントでサポートされているアルゴリズム、フレームワーク、インスタンス
マルチモデルエンドポイントでの複数のGPUバックアップ済みモデルのホストは、SageMaker Triton Inference サーバー を介してサポートされます。これにより、NVIDIA® TensorRT の 「」、、 PyTorch、MXNet、Python、ONNX、XGBoost、scikit-learn、、Open RandomForest、カスタム C++ などVINO、すべての主要な推論フレームワークがサポートされます。
他のフレームワークやアルゴリズムを使用するには、Python または C++ 用の Triton バックエンドを使用してモデルロジックを記述し、任意のカスタムモデルを提供できます。サーバーの準備が整ったら、1 つのエンドポイントに何百ものディープラーニングモデルのデプロイを開始できます。
マルチモデルエンドポイントは、次のGPUインスタンスタイプをサポートしています。
インスタンスファミリー | インスタンスタイプ | vCPUs | v あたりの GiB メモリCPU | GPUs | GPU メモリ |
---|---|---|---|---|---|
p2 |
ml.p2.xlarge |
4 |
15.25 |
1 |
12 |
p3 |
ml.p3.2xlarge |
8 |
7.62 |
1 |
16 |
g5 |
ml.g5.xlarge |
4 |
4 |
1 |
24 |
g5 |
ml.g5.2xlarge |
8 |
4 |
1 |
24 |
g5 |
ml.g5.4xlarge |
16 |
4 |
1 |
24 |
g5 |
ml.g5.8xlarge |
32 |
4 |
1 |
24 |
g5 |
ml.g5.16xlarge |
64 |
4 |
1 |
24 |
g4dn |
ml.g4dn.xlarge |
4 |
4 |
1 |
16 |
g4dn |
ml.g4dn.2xlarge |
8 |
4 |
1 |
16 |
g4dn |
ml.g4dn.4xlarge |
16 |
4 |
1 |
16 |
g4dn |
ml.g4dn.8xlarge |
32 |
4 |
1 |
16 |
g4dn |
ml.g4dn.16xlarge |
64 |
4 |
1 |
16 |