Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
SageMaker Inférence
Les modèles Amazon Nova personnalisés sont désormais disponibles par SageMaker inférence. Avec Amazon Nova activé SageMaker, vous pouvez commencer à obtenir des prédictions, ou des inférences, à partir de vos modèles Amazon Nova personnalisés et entraînés. SageMaker propose une large sélection d'options de déploiement d'infrastructures et de modèles de machine learning pour répondre à tous vos besoins en matière d'inférence de machine learning. Grâce à SageMaker l'inférence, vous pouvez adapter le déploiement de vos modèles, gérer les modèles plus efficacement en production et réduire la charge opérationnelle.
SageMaker vous propose diverses options d'inférence, telles que des points de terminaison en temps réel pour obtenir une inférence à faible latence et des points de terminaison asynchrones pour des lots de demandes. En tirant parti de l’option d’inférence adaptée à votre cas d’utilisation, vous pouvez garantir des déploiements et des inférences de modèles efficaces. Pour plus d'informations sur l' SageMaker inférence, voir Déployer des modèles pour l'inférence.
Important
Seuls les modèles personnalisés complets et les LoRA-merged modèles sont pris en charge par SageMaker inférence. Pour les modèles LoRa et les modèles de base non fusionnés, utilisez Amazon Bedrock.
Caractéristiques
Les fonctionnalités suivantes sont disponibles pour les modèles Amazon Nova par SageMaker inférence :
Capacités du modèle
-
Génération de texte
Déploiement et évolutivité
-
Real-time points de terminaison avec sélection d'instance personnalisée
-
Auto Scaling — Ajustez automatiquement la capacité en fonction des modèles de trafic afin d'optimiser les coûts et l'utilisation du GPU. Pour plus d'informations, consultez Automatically Scale Amazon SageMaker Models.
-
Support de l'API de streaming pour la génération de jetons en temps réel
Surveillance et optimisation
-
CloudWatch Intégration avec Amazon pour la surveillance et les alertes
-
Optimisation de la disponibilité et de la Zone-aware latence grâce à la configuration VPC
Outils de développement
-
AWS CLI support — Pour plus d'informations, consultez le manuel de référence des commandes AWS CLI pour SageMaker.
-
Intégration à un ordinateur portable via le support du SDK
Modèles et instances pris en charge
Lorsque vous créez vos points de terminaison d' SageMaker inférence, vous pouvez définir deux variables d'environnement pour configurer votre déploiement : CONTEXT_LENGTH et. MAX_CONCURRENCY
-
CONTEXT_LENGTH— Longueur totale maximale du jeton (entrée+sortie) par demande -
MAX_CONCURRENCY— Nombre maximum de demandes simultanées traitées par le point de terminaison
Le tableau suivant répertorie les modèles, les types d'instances et les configurations Amazon Nova pris en charge. Les valeurs MAX_CONCURRENCY représentent la simultanéité maximale prise en charge pour chaque paramètre CONTEXT_LENGTH :
| Modèle | Type d'instance | Configurations prises en charge | Quantification FP8 requise |
|---|---|---|---|
| Amazon Nova Micro | ml.g5.12xlarge |
LONGUEUR_CONTEXTE : 4000, SIMULTANÉITÉ MAXIMALE : 12 LONGUEUR_CONTEXTE : 8000, SIMULTANÉITÉ MAXIMALE : 6 |
Non |
| ml.g5.24xlarge | LONGUEUR_CONTEXTE : 8000, SIMULTANÉITÉ MAXIMALE : 8 | Non | |
| ml.g6e.xlarge |
LONGUEUR_CONTEXTE : 8000, SIMULTANÉITÉ MAXIMALE : 2 |
Non | |
| ml.g6e.2xlarge |
LONGUEUR_CONTEXTE : 8000, SIMULTANÉITÉ MAXIMALE : 2 |
Non | |
| ml.g6e.4xlarge |
LONGUEUR_CONTEXTE : 8000, SIMULTANÉITÉ MAXIMALE : 4 |
Non | |
| ml.g6.12xlarge |
LONGUEUR_CONTEXTE : 4000, SIMULTANÉITÉ MAXIMALE : 12 LONGUEUR_CONTEXTE : 8000, SIMULTANÉITÉ MAXIMALE : 6 |
Non | |
| ml.g6.24xlarge | LONGUEUR_CONTEXTE : 8000, SIMULTANÉITÉ MAXIMALE : 8 | Non | |
| ml.g6.48xlarge | LONGUEUR_CONTEXTE : 8000, SIMULTANÉITÉ MAXIMALE : 12 | Non | |
| ml.p5.48xlarge |
LONGUEUR_CONTEXTE : 16000, SIMULTANÉITÉ MAXIMALE : 128 LONGUEUR DU CONTEXTE : 64 000, CONCURRENCE MAXIMALE : 32 LONGUEUR_CONTEXTE : 128 000, SIMULTANÉITÉ MAXIMALE : 8 |
Non | |
| Amazon Nova Lite | ml.g6.12xlarge |
LONGUEUR_CONTEXTE : 8000, SIMULTANÉITÉ MAXIMALE : 2 |
Oui - Activé par défaut |
| ml.g6.24xlarge |
LONGUEUR_CONTEXTE : 8000, SIMULTANÉITÉ MAXIMALE : 4 |
Oui - Activé par défaut | |
| ml.g6.48xlarge |
LONGUEUR_CONTEXTE : 4000, SIMULTANÉITÉ MAXIMALE : 16 LONGUEUR_CONTEXTE : 8000, SIMULTANÉITÉ MAXIMALE : 8 |
Non | |
| ml.p5.48xlarge |
LONGUEUR_CONTEXTE : 16000, SIMULTANÉITÉ MAXIMALE : 128 LONGUEUR_CONTEXTE : 60000, SIMULTANÉITÉ MAXIMALE : 8 |
Non | |
| Nova 2 Lite | ml.g6.48xlarge |
LONGUEUR_CONTEXTE : 8000, SIMULTANÉITÉ MAXIMALE : 8 |
Oui - Activé par défaut |
| ml.p5.48xlarge |
LONGUEUR_CONTEXTE : 16000, SIMULTANÉITÉ MAXIMALE : 128 LONGUEUR DU CONTEXTE : 64 000, CONCURRENCE MAXIMALE : 32 LONGUEUR_CONTEXTE : 128 000, SIMULTANÉITÉ MAXIMALE : 8 LONGUEUR_CONTEXTE : 256000, SIMULTANÉITÉ MAXIMALE : 2 |
Non |
Note
Dans les cas où la quantification FP8 est requise, elle sera activée par défaut.
Les valeurs MAX_CONCURRENCY affichées sont les limites supérieures de chaque paramètre CONTEXT_LENGTH. Vous pouvez utiliser des longueurs de contexte plus faibles avec la même simultanéité, mais le dépassement de ces valeurs entraînera l'échec de la création du point de SageMaker terminaison.
Par exemple, sur Amazon Nova Micro avec un ml.g5.12xlarge :
-
CONTEXT_LENGTH=2000,MAX_CONCURRENCY=12→ Valide -
CONTEXT_LENGTH=8000,MAX_CONCURRENCY=12→ Rejeté (la limite de simultanéité est de 6 pour une longueur de contexte de 8 000) -
CONTEXT_LENGTH=8000,MAX_CONCURRENCY=4→ Valide -
CONTEXT_LENGTH=8000,MAX_CONCURRENCY=6→ Valide -
CONTEXT_LENGTH=10000→ Rejeté (la longueur maximale du contexte est de 8 000 sur cette instance)
Composants Inférence
Vous pouvez déployer des modèles Amazon Nova à l'aide de composants d' SageMaker inférence, qui vous permettent d'héberger plusieurs modèles sur un seul point de terminaison et d'optimiser l'utilisation des ressources. Les composants d'inférence vous permettent de spécifier les ressources de calcul (CPU, mémoire, GPU) requises pour chaque modèle, ce qui permet un hébergement multimodèle efficace sur une infrastructure partagée.
Le tableau suivant répertorie les ressources de calcul minimales requises pour chaque modèle Amazon Nova lors de l'utilisation de composants d'inférence :
| Modèle | Nombre minimal de cœurs de processeur | Mémoire minimale (Mo) | Nombre minimum de GPU |
|---|---|---|---|
| Amazon Nova Micro | 15 | 25000 | 4 |
| Amazon Nova Lite | 20 | 35000 | 4 |
| Nova 2 Lite | 20 | 100 000 | 4 |
Note
Les ComputeResourceRequirements valeurs doivent satisfaire ou dépasser les exigences minimales répertoriées dans le tableau ci-dessus pour le modèle que vous déployez. L'utilisation de valeurs inférieures aux minimums entraînera l'échec de la création du composant d'inférence.
Vous pouvez déployer plusieurs composants d'inférence sur le même point de terminaison, à condition que le total des besoins en ressources ne dépasse pas la capacité de l'instance.
Le nombre de composants d'inférence que vous pouvez héberger sur un seul point de terminaison dépend des ressources disponibles du type d'instance et des exigences minimales de chaque modèle. Par exemple, sur un ml.p5.48xlarge (8 GPU, 192 vCPU, environ 1 To de mémoire) :
-
1 composant d'inférence Amazon Nova Micro (4 GPU, 15 cœurs de processeur, 25 000 Mo) → Valide
-
2 composants d'inférence Amazon Nova Micro (8 GPU au total, 30 cœurs de processeur, 50 000 Mo) → Valide (adapté à la capacité de l'instance)
-
1 composant d'inférence Nova 2 Lite (4 GPU, 20 cœurs de processeur, 100 000 Mo) → Valide
-
2 composants d'inférence Nova 2 Lite (8 GPU au total, 40 cœurs de processeur, 200 000 Mo) → Valide
-
3 composants d'inférence Amazon Nova Micro (12 GPU au total) → Refusés (plus de 8 GPU disponibles)
AWS Régions prises en charge
Le tableau suivant répertorie les AWS régions dans lesquelles les modèles Amazon Nova sont disponibles par SageMaker inférence :
| Nom de la région | Code région | Disponibilité |
|---|---|---|
| USA Est (Virginie du Nord) | us-east-1 | Available |
| USA Ouest (Oregon) | us-west-2 | Available |
Images de conteneurs prises en charge
Le tableau suivant répertorie les URI des images de conteneur pour les modèles Amazon Nova par SageMaker inférence par région. La SM-Inference-latest balise pointe actuellement versv1.4.
| Région | URI d'images de conteneurs |
|---|---|
| us-east-1 | 708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-inference-repo:SM-Inference-latest |
| us-west-2 | 176779409107.dkr.ecr.us-west-2.amazonaws.com/nova-inference-repo:SM-Inference-latest |
Bonnes pratiques
Pour connaître les meilleures pratiques relatives au déploiement et à la gestion des modèles sur SageMaker, consultez la section Meilleures pratiques pour SageMaker.
Support
En cas de problème ou d'assistance concernant les modèles Amazon Nova par SageMaker inférence, contactez le AWS Support via la console ou votre responsable de AWS compte.