Algorithmes, frameworks et instances pris en charge pour les points de terminaison multimodèles - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Algorithmes, frameworks et instances pris en charge pour les points de terminaison multimodèles

Pour plus d'informations sur les algorithmes, les cadres et les types d'instances que vous pouvez utiliser avec des points de terminaison multi-modèles, consultez les sections suivantes.

Algorithmes, cadres et instances pris en charge pour les points de terminaison multi-modèles utilisant des instances basées sur des processeurs

Les conteneurs d'inférence pour les algorithmes et cadres suivants prennent en charge les points de terminaison multimodèles :

Pour utiliser un autre framework ou algorithme, utilisez la boîte à outils d'inférence SageMaker AI pour créer un conteneur prenant en charge les points de terminaison multimodèles. Pour plus d’informations, veuillez consulter Créez votre propre conteneur pour les points de terminaison multimodèles basés sur l' SageMaker IA.

Les points de terminaison multi-modèles prennent en charge tous les types d'instances de processeur.

Algorithmes, cadres et instances pris en charge pour les points de terminaison multi-modèles utilisant des instances basées sur des GPU

L'hébergement de plusieurs modèles basés sur un GPU sur des terminaux multimodèles est pris en charge via le serveur SageMaker AI Triton Inference. Cela prend en charge tous les principaux frameworks d'inférence tels que NVIDIA® TensorRT™, Python PyTorch, ONNX MXNet, scikit-learn XGBoost, OpenVINO, le C++ personnalisé RandomForest, etc.

Pour utiliser un autre cadre ou algorithme, vous pouvez utiliser le backend Triton pour Python ou C++ pour écrire la logique de votre modèle et utiliser n'importe quel modèle personnalisé. Une fois le serveur prêt, vous pouvez commencer à déployer des centaines de modèles de deep learning sur un seul point de terminaison.

Les points de terminaison multi-modèles prennent en charge les types d'instances de GPU suivants :

Famille d’instances Type d’instance v CPUs GiO de mémoire par vCPU GPUs Mémoire GPU

p2

ml.p2.xlarge

4

15,25

1

12

p3

ml.p3.2xlarge

8

7,62

1

16

g5

ml.g5.xlarge

4

4

1

24

g5

ml.g5.2xlarge

8

4

1

24

g5

ml.g5.4xlarge

16

4

1

24

g5

ml.g5.8xlarge

32

4

1

24

g5

ml.g5.16xlarge

64

4

1

24

g4dn

ml.g4dn.xlarge

4

4

1

16

g4dn

ml.g4dn.2xlarge

8

4

1

16

g4dn

ml.g4dn.4xlarge

16

4

1

16

g4dn

ml.g4dn.8xlarge

32

4

1

16

g4dn

ml.g4dn.16xlarge

64

4

1

16