View a markdown version of this page

SageMaker Inférence - Amazon Nova

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

SageMaker Inférence

Les modèles Amazon Nova personnalisés sont désormais disponibles par SageMaker inférence. Avec Amazon Nova activé SageMaker, vous pouvez commencer à obtenir des prédictions, ou des inférences, à partir de vos modèles Amazon Nova personnalisés et entraînés. SageMaker propose une large sélection d'options de déploiement d'infrastructures et de modèles de machine learning pour répondre à tous vos besoins en matière d'inférence de machine learning. Grâce à SageMaker l'inférence, vous pouvez adapter le déploiement de vos modèles, gérer les modèles plus efficacement en production et réduire la charge opérationnelle.

SageMaker vous propose diverses options d'inférence, telles que des points de terminaison en temps réel pour obtenir une inférence à faible latence et des points de terminaison asynchrones pour des lots de demandes. En tirant parti de l’option d’inférence adaptée à votre cas d’utilisation, vous pouvez garantir des déploiements et des inférences de modèles efficaces. Pour plus d'informations sur l' SageMaker inférence, voir Déployer des modèles pour l'inférence.

Important

Seuls les modèles personnalisés complets et les LoRA-merged modèles sont pris en charge par SageMaker inférence. Pour les modèles LoRa et les modèles de base non fusionnés, utilisez Amazon Bedrock.

Caractéristiques

Les fonctionnalités suivantes sont disponibles pour les modèles Amazon Nova par SageMaker inférence :

Capacités du modèle

  • Génération de texte

Déploiement et évolutivité

  • Real-time points de terminaison avec sélection d'instance personnalisée

  • Auto Scaling — Ajustez automatiquement la capacité en fonction des modèles de trafic afin d'optimiser les coûts et l'utilisation du GPU. Pour plus d'informations, consultez Automatically Scale Amazon SageMaker Models.

  • Support de l'API de streaming pour la génération de jetons en temps réel

Surveillance et optimisation

  • CloudWatch Intégration avec Amazon pour la surveillance et les alertes

  • Optimisation de la disponibilité et de la Zone-aware latence grâce à la configuration VPC

Outils de développement

Modèles et instances pris en charge

Lorsque vous créez vos points de terminaison d' SageMaker inférence, vous pouvez définir deux variables d'environnement pour configurer votre déploiement : CONTEXT_LENGTH et. MAX_CONCURRENCY

  • CONTEXT_LENGTH— Longueur totale maximale du jeton (entrée+sortie) par demande

  • MAX_CONCURRENCY— Nombre maximum de demandes simultanées traitées par le point de terminaison

Le tableau suivant répertorie les modèles, les types d'instances et les configurations Amazon Nova pris en charge. Les valeurs MAX_CONCURRENCY représentent la simultanéité maximale prise en charge pour chaque paramètre CONTEXT_LENGTH :

Modèle Type d'instance Configurations prises en charge Quantification FP8 requise
Amazon Nova Micro ml.g5.12xlarge

LONGUEUR_CONTEXTE : 4000, SIMULTANÉITÉ MAXIMALE : 12

LONGUEUR_CONTEXTE : 8000, SIMULTANÉITÉ MAXIMALE : 6

Non
ml.g5.24xlarge LONGUEUR_CONTEXTE : 8000, SIMULTANÉITÉ MAXIMALE : 8 Non
ml.g6e.xlarge

LONGUEUR_CONTEXTE : 8000, SIMULTANÉITÉ MAXIMALE : 2

Non
ml.g6e.2xlarge

LONGUEUR_CONTEXTE : 8000, SIMULTANÉITÉ MAXIMALE : 2

Non
ml.g6e.4xlarge

LONGUEUR_CONTEXTE : 8000, SIMULTANÉITÉ MAXIMALE : 4

Non
ml.g6.12xlarge

LONGUEUR_CONTEXTE : 4000, SIMULTANÉITÉ MAXIMALE : 12

LONGUEUR_CONTEXTE : 8000, SIMULTANÉITÉ MAXIMALE : 6

Non
ml.g6.24xlarge LONGUEUR_CONTEXTE : 8000, SIMULTANÉITÉ MAXIMALE : 8 Non
ml.g6.48xlarge LONGUEUR_CONTEXTE : 8000, SIMULTANÉITÉ MAXIMALE : 12 Non
ml.p5.48xlarge

LONGUEUR_CONTEXTE : 16000, SIMULTANÉITÉ MAXIMALE : 128

LONGUEUR DU CONTEXTE : 64 000, CONCURRENCE MAXIMALE : 32

LONGUEUR_CONTEXTE : 128 000, SIMULTANÉITÉ MAXIMALE : 8

Non
Amazon Nova Lite ml.g6.12xlarge

LONGUEUR_CONTEXTE : 8000, SIMULTANÉITÉ MAXIMALE : 2

Oui - Activé par défaut
ml.g6.24xlarge

LONGUEUR_CONTEXTE : 8000, SIMULTANÉITÉ MAXIMALE : 4

Oui - Activé par défaut
ml.g6.48xlarge

LONGUEUR_CONTEXTE : 4000, SIMULTANÉITÉ MAXIMALE : 16

LONGUEUR_CONTEXTE : 8000, SIMULTANÉITÉ MAXIMALE : 8

Non
ml.p5.48xlarge

LONGUEUR_CONTEXTE : 16000, SIMULTANÉITÉ MAXIMALE : 128

LONGUEUR_CONTEXTE : 60000, SIMULTANÉITÉ MAXIMALE : 8

Non
Nova 2 Lite ml.g6.48xlarge

LONGUEUR_CONTEXTE : 8000, SIMULTANÉITÉ MAXIMALE : 8

Oui - Activé par défaut
ml.p5.48xlarge

LONGUEUR_CONTEXTE : 16000, SIMULTANÉITÉ MAXIMALE : 128

LONGUEUR DU CONTEXTE : 64 000, CONCURRENCE MAXIMALE : 32

LONGUEUR_CONTEXTE : 128 000, SIMULTANÉITÉ MAXIMALE : 8

LONGUEUR_CONTEXTE : 256000, SIMULTANÉITÉ MAXIMALE : 2

Non
Note

Dans les cas où la quantification FP8 est requise, elle sera activée par défaut.

Les valeurs MAX_CONCURRENCY affichées sont les limites supérieures de chaque paramètre CONTEXT_LENGTH. Vous pouvez utiliser des longueurs de contexte plus faibles avec la même simultanéité, mais le dépassement de ces valeurs entraînera l'échec de la création du point de SageMaker terminaison.

Par exemple, sur Amazon Nova Micro avec un ml.g5.12xlarge :

  • CONTEXT_LENGTH=2000, MAX_CONCURRENCY=12 → Valide

  • CONTEXT_LENGTH=8000, MAX_CONCURRENCY=12 → Rejeté (la limite de simultanéité est de 6 pour une longueur de contexte de 8 000)

  • CONTEXT_LENGTH=8000, MAX_CONCURRENCY=4 → Valide

  • CONTEXT_LENGTH=8000, MAX_CONCURRENCY=6 → Valide

  • CONTEXT_LENGTH=10000→ Rejeté (la longueur maximale du contexte est de 8 000 sur cette instance)

Composants Inférence

Vous pouvez déployer des modèles Amazon Nova à l'aide de composants d' SageMaker inférence, qui vous permettent d'héberger plusieurs modèles sur un seul point de terminaison et d'optimiser l'utilisation des ressources. Les composants d'inférence vous permettent de spécifier les ressources de calcul (CPU, mémoire, GPU) requises pour chaque modèle, ce qui permet un hébergement multimodèle efficace sur une infrastructure partagée.

Le tableau suivant répertorie les ressources de calcul minimales requises pour chaque modèle Amazon Nova lors de l'utilisation de composants d'inférence :

Modèle Nombre minimal de cœurs de processeur Mémoire minimale (Mo) Nombre minimum de GPU
Amazon Nova Micro 15 25000 4
Amazon Nova Lite 20 35000 4
Nova 2 Lite 20 100 000 4
Note

Les ComputeResourceRequirements valeurs doivent satisfaire ou dépasser les exigences minimales répertoriées dans le tableau ci-dessus pour le modèle que vous déployez. L'utilisation de valeurs inférieures aux minimums entraînera l'échec de la création du composant d'inférence.

Vous pouvez déployer plusieurs composants d'inférence sur le même point de terminaison, à condition que le total des besoins en ressources ne dépasse pas la capacité de l'instance.

Le nombre de composants d'inférence que vous pouvez héberger sur un seul point de terminaison dépend des ressources disponibles du type d'instance et des exigences minimales de chaque modèle. Par exemple, sur un ml.p5.48xlarge (8 GPU, 192 vCPU, environ 1 To de mémoire) :

  • 1 composant d'inférence Amazon Nova Micro (4 GPU, 15 cœurs de processeur, 25 000 Mo) → Valide

  • 2 composants d'inférence Amazon Nova Micro (8 GPU au total, 30 cœurs de processeur, 50 000 Mo) → Valide (adapté à la capacité de l'instance)

  • 1 composant d'inférence Nova 2 Lite (4 GPU, 20 cœurs de processeur, 100 000 Mo) → Valide

  • 2 composants d'inférence Nova 2 Lite (8 GPU au total, 40 cœurs de processeur, 200 000 Mo) → Valide

  • 3 composants d'inférence Amazon Nova Micro (12 GPU au total) → Refusés (plus de 8 GPU disponibles)

AWS Régions prises en charge

Le tableau suivant répertorie les AWS régions dans lesquelles les modèles Amazon Nova sont disponibles par SageMaker inférence :

Nom de la région Code région Disponibilité
USA Est (Virginie du Nord) us-east-1 Available
USA Ouest (Oregon) us-west-2 Available

Images de conteneurs prises en charge

Le tableau suivant répertorie les URI des images de conteneur pour les modèles Amazon Nova par SageMaker inférence par région. La SM-Inference-latest balise pointe actuellement versv1.4.

Région URI d'images de conteneurs
us-east-1 708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-inference-repo:SM-Inference-latest
us-west-2 176779409107.dkr.ecr.us-west-2.amazonaws.com/nova-inference-repo:SM-Inference-latest

Bonnes pratiques

Pour connaître les meilleures pratiques relatives au déploiement et à la gestion des modèles sur SageMaker, consultez la section Meilleures pratiques pour SageMaker.

Support

En cas de problème ou d'assistance concernant les modèles Amazon Nova par SageMaker inférence, contactez le AWS Support via la console ou votre responsable de AWS compte.