本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
多模型端點支援的演算法、架構和執行個體
如需資訊了解可搭配多模型端點使用的演算法、架構與執行個體類型,請參閱下列各節。
使用CPU支援的執行個體支援多模型端點的演算法、架構和執行個體
下列演算法與架構的推論容器支援多模型端點:
若要使用任何其他架構或演算法,請使用 SageMaker 推論工具組建置支援多模型端點的容器。如需相關資訊,請參閱 為 SageMaker多模型端點建置自己的容器。
多模型端點支援所有CPU執行個體類型。
使用GPU支援的執行個體支援多模型端點的演算法、架構和執行個體
SageMaker Triton 推論伺服器 支援在多模型端點上託管多個GPU後端模型。這支援所有主要推論架構,例如 NVIDIA® TensorRT 聯網、 PyTorch、MXNet、Python、ONNX、XGBoost、scikit-learn、 RandomForestOpen VINO、自訂 C++ 等。
若要採用任何其他架構或演算法,您可利用 Python 或 C ++ 的 Triton 後端編寫模型邏輯並為任何自訂模型提供服務。在伺服器準備就緒之後,您即可開始在單一端點後方部署數百個深度學習模型。
多模型端點支援下列GPU執行個體類型:
執行個體系列 | 執行個體類型 | vCPUs | 每個 v 的記憶體 GiB CPU | GPUs | GPU 記憶體 |
---|---|---|---|---|---|
p2 |
ml.p2.xlarge |
4 |
15.25 |
1 |
12 |
p3 |
ml.p3.2xlarge |
8 |
7.62 |
1 |
16 |
g5 |
ml.g5.xlarge |
4 |
4 |
1 |
24 |
g5 |
ml.g5.2xlarge |
8 |
4 |
1 |
24 |
g5 |
ml.g5.4xlarge |
16 |
4 |
1 |
24 |
g5 |
ml.g5.8xlarge |
32 |
4 |
1 |
24 |
g5 |
ml.g5.16xlarge |
64 |
4 |
1 |
24 |
g4dn |
ml.g4dn.xlarge |
4 |
4 |
1 |
16 |
g4dn |
ml.g4dn.2xlarge |
8 |
4 |
1 |
16 |
g4dn |
ml.g4dn.4xlarge |
16 |
4 |
1 |
16 |
g4dn |
ml.g4dn.8xlarge |
32 |
4 |
1 |
16 |
g4dn |
ml.g4dn.16xlarge |
64 |
4 |
1 |
16 |