Caractéristiques Modèles et instances pris en charge Composants Inférence Pris en charge AWS Régions Images de conteneurs prises en charge Bonnes pratiques Support

SageMaker Inférence

Les modèles Amazon Nova personnalisés sont désormais disponibles par SageMaker inférence. Avec Amazon Nova activé SageMaker, vous pouvez commencer à obtenir des prédictions, ou des inférences, à partir de vos modèles Amazon Nova personnalisés et entraînés. SageMaker propose une large sélection d'options de déploiement d'infrastructures et de modèles de machine learning pour répondre à tous vos besoins en matière d'inférence de machine learning. Grâce à SageMaker l'inférence, vous pouvez adapter le déploiement de vos modèles, gérer les modèles plus efficacement en production et réduire la charge opérationnelle.

SageMaker vous propose diverses options d'inférence, telles que des points de terminaison en temps réel pour obtenir une inférence à faible latence et des points de terminaison asynchrones pour des lots de demandes. En tirant parti de l’option d’inférence adaptée à votre cas d’utilisation, vous pouvez garantir des déploiements et des inférences de modèles efficaces. Pour plus d'informations sur l' SageMaker inférence, voir Déployer des modèles pour l'inférence.

Important

Seuls les modèles personnalisés complets et les LoRA-merged modèles sont pris en charge par SageMaker inférence. Pour les modèles LoRa et les modèles de base non fusionnés, utilisez Amazon Bedrock.

Caractéristiques

Les fonctionnalités suivantes sont disponibles pour les modèles Amazon Nova par SageMaker inférence :

Capacités du modèle

Génération de texte

Déploiement et évolutivité

Real-time points de terminaison avec sélection d'instance personnalisée
Auto Scaling — Ajustez automatiquement la capacité en fonction des modèles de trafic afin d'optimiser les coûts et l'utilisation du GPU. Pour plus d'informations, consultez Automatically Scale Amazon SageMaker Models.
Support de l'API de streaming pour la génération de jetons en temps réel

Surveillance et optimisation

CloudWatch Intégration avec Amazon pour la surveillance et les alertes
Optimisation de la disponibilité et de la Zone-aware latence grâce à la configuration VPC

Outils de développement

AWS CLI support — Pour plus d'informations, consultez le manuel de référence des commandes AWS CLI pour SageMaker.
Intégration à un ordinateur portable via le support du SDK

Modèles et instances pris en charge

Lorsque vous créez vos points de terminaison d' SageMaker inférence, vous pouvez définir deux variables d'environnement pour configurer votre déploiement : CONTEXT_LENGTH et. MAX_CONCURRENCY

CONTEXT_LENGTH— Longueur totale maximale du jeton (entrée+sortie) par demande
MAX_CONCURRENCY— Nombre maximum de demandes simultanées traitées par le point de terminaison

Le tableau suivant répertorie les modèles, les types d'instances et les configurations Amazon Nova pris en charge. Les valeurs MAX_CONCURRENCY représentent la simultanéité maximale prise en charge pour chaque paramètre CONTEXT_LENGTH :

Modèle	Type d'instance	Configurations prises en charge	Quantification FP8 requise
Amazon Nova Micro	ml.g5.12xlarge	LONGUEUR_CONTEXTE : 4000, SIMULTANÉITÉ MAXIMALE : 12 LONGUEUR_CONTEXTE : 8000, SIMULTANÉITÉ MAXIMALE : 6	Non
	ml.g5.24xlarge	LONGUEUR_CONTEXTE : 8000, SIMULTANÉITÉ MAXIMALE : 8	Non
	ml.g6e.xlarge	LONGUEUR_CONTEXTE : 8000, SIMULTANÉITÉ MAXIMALE : 2	Non
	ml.g6e.2xlarge	LONGUEUR_CONTEXTE : 8000, SIMULTANÉITÉ MAXIMALE : 2	Non
	ml.g6e.4xlarge	LONGUEUR_CONTEXTE : 8000, SIMULTANÉITÉ MAXIMALE : 4	Non
	ml.g6.12xlarge	LONGUEUR_CONTEXTE : 4000, SIMULTANÉITÉ MAXIMALE : 12 LONGUEUR_CONTEXTE : 8000, SIMULTANÉITÉ MAXIMALE : 6	Non
	ml.g6.24xlarge	LONGUEUR_CONTEXTE : 8000, SIMULTANÉITÉ MAXIMALE : 8	Non
	ml.g6.48xlarge	LONGUEUR_CONTEXTE : 8000, SIMULTANÉITÉ MAXIMALE : 12	Non
	ml.p5.48xlarge	LONGUEUR_CONTEXTE : 16000, SIMULTANÉITÉ MAXIMALE : 128 LONGUEUR DU CONTEXTE : 64 000, CONCURRENCE MAXIMALE : 32 LONGUEUR_CONTEXTE : 128 000, SIMULTANÉITÉ MAXIMALE : 8	Non
Amazon Nova Lite	ml.g6.12xlarge	LONGUEUR_CONTEXTE : 8000, SIMULTANÉITÉ MAXIMALE : 2	Oui - Activé par défaut
	ml.g6.24xlarge	LONGUEUR_CONTEXTE : 8000, SIMULTANÉITÉ MAXIMALE : 4	Oui - Activé par défaut
	ml.g6.48xlarge	LONGUEUR_CONTEXTE : 4000, SIMULTANÉITÉ MAXIMALE : 16 LONGUEUR_CONTEXTE : 8000, SIMULTANÉITÉ MAXIMALE : 8	Non
	ml.p5.48xlarge	LONGUEUR_CONTEXTE : 16000, SIMULTANÉITÉ MAXIMALE : 128 LONGUEUR_CONTEXTE : 60000, SIMULTANÉITÉ MAXIMALE : 8	Non
Nova 2 Lite	ml.g6.48xlarge	LONGUEUR_CONTEXTE : 8000, SIMULTANÉITÉ MAXIMALE : 8	Oui - Activé par défaut
Nova 2 Lite	ml.p5.48xlarge	LONGUEUR_CONTEXTE : 16000, SIMULTANÉITÉ MAXIMALE : 128 LONGUEUR DU CONTEXTE : 64 000, CONCURRENCE MAXIMALE : 32 LONGUEUR_CONTEXTE : 128 000, SIMULTANÉITÉ MAXIMALE : 8 LONGUEUR_CONTEXTE : 256000, SIMULTANÉITÉ MAXIMALE : 2	Non

Note

Dans les cas où la quantification FP8 est requise, elle sera activée par défaut.

Les valeurs MAX_CONCURRENCY affichées sont les limites supérieures de chaque paramètre CONTEXT_LENGTH. Vous pouvez utiliser des longueurs de contexte plus faibles avec la même simultanéité, mais le dépassement de ces valeurs entraînera l'échec de la création du point de SageMaker terminaison.

Par exemple, sur Amazon Nova Micro avec un ml.g5.12xlarge :

CONTEXT_LENGTH=2000, MAX_CONCURRENCY=12 → Valide
CONTEXT_LENGTH=8000, MAX_CONCURRENCY=12 → Rejeté (la limite de simultanéité est de 6 pour une longueur de contexte de 8 000)
CONTEXT_LENGTH=8000, MAX_CONCURRENCY=4 → Valide
CONTEXT_LENGTH=8000, MAX_CONCURRENCY=6 → Valide
CONTEXT_LENGTH=10000→ Rejeté (la longueur maximale du contexte est de 8 000 sur cette instance)

Composants Inférence

Vous pouvez déployer des modèles Amazon Nova à l'aide de composants d' SageMaker inférence, qui vous permettent d'héberger plusieurs modèles sur un seul point de terminaison et d'optimiser l'utilisation des ressources. Les composants d'inférence vous permettent de spécifier les ressources de calcul (CPU, mémoire, GPU) requises pour chaque modèle, ce qui permet un hébergement multimodèle efficace sur une infrastructure partagée.

Le tableau suivant répertorie les ressources de calcul minimales requises pour chaque modèle Amazon Nova lors de l'utilisation de composants d'inférence :

Modèle	Nombre minimal de cœurs de processeur	Mémoire minimale (Mo)	Nombre minimum de GPU
Amazon Nova Micro	15	25000	4
Amazon Nova Lite	20	35000	4
Nova 2 Lite	20	100 000	4

Note

Les ComputeResourceRequirements valeurs doivent satisfaire ou dépasser les exigences minimales répertoriées dans le tableau ci-dessus pour le modèle que vous déployez. L'utilisation de valeurs inférieures aux minimums entraînera l'échec de la création du composant d'inférence.

Vous pouvez déployer plusieurs composants d'inférence sur le même point de terminaison, à condition que le total des besoins en ressources ne dépasse pas la capacité de l'instance.

Le nombre de composants d'inférence que vous pouvez héberger sur un seul point de terminaison dépend des ressources disponibles du type d'instance et des exigences minimales de chaque modèle. Par exemple, sur un ml.p5.48xlarge (8 GPU, 192 vCPU, environ 1 To de mémoire) :

1 composant d'inférence Amazon Nova Micro (4 GPU, 15 cœurs de processeur, 25 000 Mo) → Valide
2 composants d'inférence Amazon Nova Micro (8 GPU au total, 30 cœurs de processeur, 50 000 Mo) → Valide (adapté à la capacité de l'instance)
1 composant d'inférence Nova 2 Lite (4 GPU, 20 cœurs de processeur, 100 000 Mo) → Valide
2 composants d'inférence Nova 2 Lite (8 GPU au total, 40 cœurs de processeur, 200 000 Mo) → Valide
3 composants d'inférence Amazon Nova Micro (12 GPU au total) → Refusés (plus de 8 GPU disponibles)

Pris en charge AWS Régions

Le tableau suivant répertorie les AWS régions dans lesquelles les modèles Amazon Nova sont disponibles par SageMaker inférence :

Nom de la région	Code région	Disponibilité
USA Est (Virginie du Nord)	us-east-1	Available
USA Ouest (Oregon)	us-west-2	Available

Images de conteneurs prises en charge

Le tableau suivant répertorie les URI des images de conteneur pour les modèles Amazon Nova par SageMaker inférence par région. La SM-Inference-latest balise pointe actuellement versv1.4.

Région	URI d'images de conteneurs
us-east-1	`708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-inference-repo:SM-Inference-latest`
us-west-2	`176779409107.dkr.ecr.us-west-2.amazonaws.com/nova-inference-repo:SM-Inference-latest`

Bonnes pratiques

Pour connaître les meilleures pratiques relatives au déploiement et à la gestion des modèles sur SageMaker, consultez la section Meilleures pratiques pour SageMaker.

Support

En cas de problème ou d'assistance concernant les modèles Amazon Nova par SageMaker inférence, contactez le AWS Support via la console ou votre responsable de AWS compte.

Rubriques

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Fusion de modèles

Prise en main