Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Algorithmes, frameworks et instances pris en charge pour les points de terminaison multimodèles
Pour plus d'informations sur les algorithmes, les cadres et les types d'instances que vous pouvez utiliser avec des points de terminaison multi-modèles, consultez les sections suivantes.
Algorithmes, cadres et instances pris en charge pour les points de terminaison multi-modèles utilisant des instances basées sur des processeurs
Les conteneurs d'inférence pour les algorithmes et cadres suivants prennent en charge les points de terminaison multimodèles :
Pour utiliser un autre framework ou algorithme, utilisez la boîte à outils d'inférence SageMaker AI pour créer un conteneur prenant en charge les points de terminaison multimodèles. Pour plus d’informations, veuillez consulter Créez votre propre conteneur pour les points de terminaison multimodèles basés sur l' SageMaker IA.
Les points de terminaison multi-modèles prennent en charge tous les types d'instances de processeur.
Algorithmes, cadres et instances pris en charge pour les points de terminaison multi-modèles utilisant des instances basées sur des GPU
L'hébergement de plusieurs modèles basés sur un GPU sur des terminaux multimodèles est pris en charge via le serveur SageMaker AI Triton Inference. Cela prend en charge tous les principaux frameworks d'inférence tels que NVIDIA® TensorRT™, Python PyTorch, ONNX MXNet, scikit-learn XGBoost, OpenVINO, le C++ personnalisé RandomForest, etc.
Pour utiliser un autre cadre ou algorithme, vous pouvez utiliser le backend Triton pour Python ou C++ pour écrire la logique de votre modèle et utiliser n'importe quel modèle personnalisé. Une fois le serveur prêt, vous pouvez commencer à déployer des centaines de modèles de deep learning sur un seul point de terminaison.
Les points de terminaison multi-modèles prennent en charge les types d'instances de GPU suivants :
Famille d’instances | Type d’instance | v CPUs | GiO de mémoire par vCPU | GPUs | Mémoire GPU |
---|---|---|---|---|---|
p2 |
ml.p2.xlarge |
4 |
15,25 |
1 |
12 |
p3 |
ml.p3.2xlarge |
8 |
7,62 |
1 |
16 |
g5 |
ml.g5.xlarge |
4 |
4 |
1 |
24 |
g5 |
ml.g5.2xlarge |
8 |
4 |
1 |
24 |
g5 |
ml.g5.4xlarge |
16 |
4 |
1 |
24 |
g5 |
ml.g5.8xlarge |
32 |
4 |
1 |
24 |
g5 |
ml.g5.16xlarge |
64 |
4 |
1 |
24 |
g4dn |
ml.g4dn.xlarge |
4 |
4 |
1 |
16 |
g4dn |
ml.g4dn.2xlarge |
8 |
4 |
1 |
16 |
g4dn |
ml.g4dn.4xlarge |
16 |
4 |
1 |
16 |
g4dn |
ml.g4dn.8xlarge |
32 |
4 |
1 |
16 |
g4dn |
ml.g4dn.16xlarge |
64 |
4 |
1 |
16 |