Algorithmes, frameworks et instances pris en charge pour les points de terminaison multimodèles

Mode de mise au point

Algorithmes, frameworks et instances pris en charge pour les points de terminaison multimodèles - Amazon SageMaker AI

Algorithmes, cadres et instances pris en charge pour les points de terminaison multi-modèles utilisant des instances basées sur des processeurs Algorithmes, cadres et instances pris en charge pour les points de terminaison multi-modèles utilisant des instances basées sur des GPU

Pour plus d'informations sur les algorithmes, les cadres et les types d'instances que vous pouvez utiliser avec des points de terminaison multi-modèles, consultez les sections suivantes.

Algorithmes, cadres et instances pris en charge pour les points de terminaison multi-modèles utilisant des instances basées sur des processeurs

Les conteneurs d'inférence pour les algorithmes et cadres suivants prennent en charge les points de terminaison multimodèles :

Pour utiliser un autre framework ou algorithme, utilisez la boîte à outils d'inférence SageMaker AI pour créer un conteneur prenant en charge les points de terminaison multimodèles. Pour plus d’informations, veuillez consulter Créez votre propre conteneur pour les points de terminaison multimodèles basés sur l' SageMaker IA.

Les points de terminaison multi-modèles prennent en charge tous les types d'instances de processeur.

Algorithmes, cadres et instances pris en charge pour les points de terminaison multi-modèles utilisant des instances basées sur des GPU

L'hébergement de plusieurs modèles basés sur un GPU sur des terminaux multimodèles est pris en charge via le serveur SageMaker AI Triton Inference. Cela prend en charge tous les principaux frameworks d'inférence tels que NVIDIA® TensorRT™, Python PyTorch, ONNX MXNet, scikit-learn XGBoost, OpenVINO, le C++ personnalisé RandomForest, etc.

Pour utiliser un autre cadre ou algorithme, vous pouvez utiliser le backend Triton pour Python ou C++ pour écrire la logique de votre modèle et utiliser n'importe quel modèle personnalisé. Une fois le serveur prêt, vous pouvez commencer à déployer des centaines de modèles de deep learning sur un seul point de terminaison.

Les points de terminaison multi-modèles prennent en charge les types d'instances de GPU suivants :

Famille d’instances	Type d’instance	v CPUs	GiO de mémoire par vCPU	GPUs	Mémoire GPU
p2	ml.p2.xlarge	4	15,25	1	12
p3	ml.p3.2xlarge	8	7,62	1	16
g5	ml.g5.xlarge	4	4	1	24
g5	ml.g5.2xlarge	8	4	1	24
g5	ml.g5.4xlarge	16	4	1	24
g5	ml.g5.8xlarge	32	4	1	24
g5	ml.g5.16xlarge	64	4	1	24
g4dn	ml.g4dn.xlarge	4	4	1	16
g4dn	ml.g4dn.2xlarge	8	4	1	16
g4dn	ml.g4dn.4xlarge	16	4	1	16
g4dn	ml.g4dn.8xlarge	32	4	1	16
g4dn	ml.g4dn.16xlarge	64	4	1	16

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Points de terminaison multi-modèles

Recommandations d'instance pour les déploiements de points de terminaison multi-modèles

Sur cette page

Sélectionner vos préférences de cookies

Personnaliser les préférences de cookies

Essentiels

Performances

Fonctionnels

Publicitaires

Impossible d'enregistrer les préférences concernant les cookies

Algorithmes, frameworks et instances pris en charge pour les points de terminaison multimodèles

Algorithmes, cadres et instances pris en charge pour les points de terminaison multi-modèles utilisant des instances basées sur des processeurs

Algorithmes, cadres et instances pris en charge pour les points de terminaison multi-modèles utilisant des instances basées sur des GPU

Sur cette page

Related resources

Cette page vous a-t-elle été utile ?

Related resources

Rubrique suivante :

Rubrique précédente :

Avez-vous besoin d’aide ?