多模型端點支援的演算法、架構和執行個體 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

多模型端點支援的演算法、架構和執行個體

如需資訊了解可搭配多模型端點使用的演算法、架構與執行個體類型,請參閱下列各節。

使用CPU支援的執行個體支援多模型端點的演算法、架構和執行個體

下列演算法與架構的推論容器支援多模型端點:

若要使用任何其他架構或演算法,請使用 SageMaker 推論工具組建置支援多模型端點的容器。如需相關資訊,請參閱 為 SageMaker多模型端點建置自己的容器

多模型端點支援所有CPU執行個體類型。

使用GPU支援的執行個體支援多模型端點的演算法、架構和執行個體

SageMaker Triton 推論伺服器 支援在多模型端點上託管多個GPU後端模型。這支援所有主要推論架構,例如 NVIDIA® TensorRT 聯網、 PyTorch、MXNet、Python、ONNX、XGBoost、scikit-learn、 RandomForestOpen VINO、自訂 C++ 等。

若要採用任何其他架構或演算法,您可利用 Python 或 C ++ 的 Triton 後端編寫模型邏輯並為任何自訂模型提供服務。在伺服器準備就緒之後,您即可開始在單一端點後方部署數百個深度學習模型。

多模型端點支援下列GPU執行個體類型:

執行個體系列 執行個體類型 vCPUs 每個 v 的記憶體 GiB CPU GPUs GPU 記憶體

p2

ml.p2.xlarge

4

15.25

1

12

p3

ml.p3.2xlarge

8

7.62

1

16

g5

ml.g5.xlarge

4

4

1

24

g5

ml.g5.2xlarge

8

4

1

24

g5

ml.g5.4xlarge

16

4

1

24

g5

ml.g5.8xlarge

32

4

1

24

g5

ml.g5.16xlarge

64

4

1

24

g4dn

ml.g4dn.xlarge

4

4

1

16

g4dn

ml.g4dn.2xlarge

8

4

1

16

g4dn

ml.g4dn.4xlarge

16

4

1

16

g4dn

ml.g4dn.8xlarge

32

4

1

16

g4dn

ml.g4dn.16xlarge

64

4

1

16