View a markdown version of this page

Caractéristiques du conteneur d'inférence - Amazon Nova

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Caractéristiques du conteneur d'inférence

Le conteneur d' SageMaker inférence Amazon Nova inclut un ensemble de fonctionnalités que vous pouvez activer pour personnaliser le comportement du modèle lors de l'inférence. Chaque fonctionnalité est introduite dans une version de conteneur spécifique et peut nécessiter des variables d'environnement, des paramètres de demande, ou les deux pour être activée.

Cette page répertorie les fonctionnalités disponibles dans le conteneur d'inférence, décrit comment activer chacune d'entre elles et identifie la version du conteneur dans laquelle la fonctionnalité a été introduite. Utilisez cette référence pour déterminer quelles fonctionnalités sont disponibles pour votre déploiement et comment les configurer.

Les fonctionnalités activées par le biais de variables d'environnement sont définies lorsque vous créez le SageMaker modèle ou la configuration du point de terminaison. Incluez-les dans le Environment paramètre de l'appel CreateModeld'API. Les fonctionnalités activées via les paramètres de demande sont définies par appel dans le corps de la demande.

Note

Utilisez toujours la dernière image du conteneur pour accéder à toutes les fonctionnalités disponibles. La SM-Inference-latest balise pointe actuellement versv1.4.

Récapitulatif des caractéristiques

Le tableau suivant fournit une référence rapide de toutes les fonctionnalités prises en charge dans le conteneur d' SageMaker inférence Amazon Nova.

Résumé des fonctionnalités du conteneur d'inférence
Fonctionnalité Comment activer Par défaut Modèles pris en charge Présenté dans
Température par défaut Variable d'environnement 1.0 Tous les modèles Amazon Nova v1.0
Top-p par défaut Variable d'environnement 1.0 Tous les modèles Amazon Nova v1.0
Top-k par défaut Variable d'environnement -1(handicapé) Tous les modèles Amazon Nova v1.0
Nombre maximum de nouveaux jetons par défaut Variable d'environnement Longueur de contexte maximale du modèle Tous les modèles Amazon Nova v1.0
Logprobs par défaut Variable d'environnement Désactivé Tous les modèles Amazon Nova v1.0
Décodage spéculatif Eagle3 Activée par défaut. Activé Tous les modèles Amazon Nova v1.0
Type de données du cache KV Variable d'environnement Identique au type de données du modèle Tous les modèles Amazon Nova v1.3
Quantification Variable d'environnement Handicapé* Tous les modèles Amazon Nova v1.3
Nombre de jetons spéculatifs Variable d'environnement 3 Tous les modèles Amazon Nova v1.4
Décodage de suffixes Variable d'environnement Désactivé Tous les modèles Amazon Nova v1.4
Important

* La quantification FP8 est automatiquement activée et ne peut pas être désactivée pour les combinaisons de modèles et de types d'instance suivantes :

  • Amazon Nova Lite sur ml.g6.12xlarge ou ml.g6.24xlarge

  • Nova 2 Lite activé ml.g6.48xlarge

Pour ces configurations, il n'est pas nécessaire de définirQUANTIZATION_DTYPE. Consultez Quantification pour plus de détails.

Température par défaut

Définit la température d'échantillonnage par défaut pour toutes les demandes d'inférence envoyées au point de terminaison. La température détermine le caractère aléatoire ou prévisible de la sortie du modèle. Une valeur de 0 permet au modèle de toujours choisir le mot suivant le plus probable, produisant ainsi un résultat cohérent et reproductible. Des valeurs plus élevées (jusqu'à2) incitent le modèle à choisir des mots moins probables, ce qui produit des réponses plus créatives et variées.

Quand utiliser : Abaissez la température (par exemple, 0.1 à0.3) pour les tâches qui nécessitent des réponses factuelles et cohérentes, telles que la classification ou l'extraction de données. Portez-le (par exemple, 0.7 à1.0) pour des tâches créatives telles que la rédaction d'histoires ou le brainstorming. La température fonctionne conjointement avec top-p et top-k : tous les trois contrôlent la façon dont le modèle sélectionne les jetons, et vous pouvez les combiner pour affiner le comportement de sortie.

Présenté dans

v1.0

Modèles pris en charge

Tous les modèles Amazon Nova

Comment activer

Définissez la variable d'DEFAULT_TEMPERATUREenvironnement lors de la création du SageMaker modèle.

Valeur par défaut

1.0

Valeurs valides

Flottez entre 0 et 2 (inclus)

Variable d'environnement

"Environment": { "DEFAULT_TEMPERATURE": "0.7" }
Note

Vous pouvez remplacer cette valeur par défaut au cas par cas en incluant le temperature paramètre dans le corps de la demande.

Top-p par défaut

Définit la valeur supérieure par défaut pour toutes les demandes d'inférence. Top-p contrôle la diversité de sortie en limitant les choix du modèle à un sous-ensemble des mots les plus probables. Plus précisément, le modèle trie tous les mots suivants possibles par probabilité et ne prend en compte que le plus petit groupe dont la probabilité combinée atteint la valeur p maximale. Par exemple, un top-p de 0.9 signifie que le modèle ne prend en compte que les mots qui, ensemble, représentent 90 % de la probabilité, en ignorant les autres options peu probables.

Quand l'utiliser : utilisez une valeur supérieure de p inférieure (par exemple,0.5) pour que le modèle s'en tienne aux mots les plus fiables, produisant ainsi un résultat plus ciblé. Utilisez une valeur plus élevée (par exemple,0.95) pour permettre une plus grande variété. Top-p est souvent utilisé comme alternative à la température : les deux permettent de contrôler la diversité des sorties, mais le top-p s'adapte dynamiquement en fonction de la confiance du modèle à chaque étape. Vous pouvez utiliser les deux ensemble, auquel cas le modèle applique la contrainte la plus restrictive à chaque étape.

Présenté dans

v1.0

Modèles pris en charge

Tous les modèles Amazon Nova

Comment activer

Définissez la variable d'DEFAULT_TOP_Penvironnement lors de la création du SageMaker modèle.

Valeur par défaut

1.0

Valeurs valides

Flottez entre 1e-10 et 1 (inclus)

Variable d'environnement

"Environment": { "DEFAULT_TOP_P": "0.9" }
Note

Vous pouvez remplacer cette valeur par défaut au cas par cas en incluant le top_p paramètre dans le corps de la demande.

Top-k par défaut

Définit la valeur top k par défaut pour toutes les demandes d'inférence. Top-k limite les choix du modèle à un nombre fixe de mots suivants les plus probables. Par exemple, un top k 50 signifie que le modèle ne prend en compte que les 50 mots les plus probables à chaque étape, quelles que soient leurs probabilités individuelles. La valeur de -1 désactive cette limite, permettant au modèle de prendre en compte tous les mots possibles.

Quand utiliser : utilisez top-k lorsque vous souhaitez limiter strictement le nombre de choix de mots pris en compte par le modèle. Des valeurs faibles (par exemple10) produisent des résultats plus prévisibles, tandis que des valeurs élevées permettent une plus grande variété. Top-k peut être combiné avec la température et le topp : lorsque plusieurs commandes d'échantillonnage sont actives, le modèle les applique toutes, en utilisant celle qui est la plus restrictive à chaque étape.

Présenté dans

v1.0

Modèles pris en charge

Tous les modèles Amazon Nova

Comment activer

Définissez la variable d'DEFAULT_TOP_Kenvironnement lors de la création du SageMaker modèle.

Valeur par défaut

-1(handicapé)

Valeurs valides

Nombre entier -1 ou supérieur. -1À utiliser pour prendre en compte tous les jetons.

Variable d'environnement

"Environment": { "DEFAULT_TOP_K": "50" }
Note

Vous pouvez remplacer cette valeur par défaut au cas par cas en incluant le top_k paramètre dans le corps de la demande.

Nombre maximum de nouveaux jetons par défaut

Définit le nombre maximum par défaut de jetons (mots ou parties de mots) que le modèle génère dans une réponse. Cette valeur s'applique à toutes les demandes sauf si elles sont remplacées. Utilisez-le pour contrôler la longueur des réponses et gérer les coûts sur l'ensemble de votre terminal.

Quand utiliser : définissez cette option lorsque vous souhaitez appliquer une longueur de réponse maximale cohérente pour toutes les demandes. Par exemple, définissez-le sur 256 pour les tâches à réponse courte ou 2048 pour la génération de contenu plus longue. La valeur maximale autorisée dépend de celle CONTEXT_LENGTH configurée pour votre point de terminaison, car les jetons d'entrée et les jetons de sortie ne peuvent pas dépasser la longueur du contexte.

Présenté dans

v1.0

Modèles pris en charge

Tous les modèles Amazon Nova

Comment activer

Définissez la variable d'DEFAULT_MAX_NEW_TOKENSenvironnement lors de la création du SageMaker modèle.

Valeur par défaut

Longueur de contexte maximale du modèle

Valeurs valides

Nombre entier 1 ou supérieur

Variable d'environnement

"Environment": { "DEFAULT_MAX_NEW_TOKENS": "512" }
Note

Vous pouvez remplacer cette valeur par défaut au cas par cas en incluant le max_completion_tokens paramètre max_tokens ou dans le corps de la demande. La valeur maximale autorisée dépend de la valeur CONTEXT_LENGTH configurée pour votre point de terminaison.

Logprobs par défaut

Définit le nombre par défaut de probabilités de log à renvoyer pour chaque jeton généré. Une probabilité logarithmique est un score numérique qui indique le degré de confiance du modèle dans le choix de chaque mot. Lorsque cette option est activée, la réponse inclut ces scores pour chaque jeton de sortie, ce qui est utile pour évaluer la fiabilité du modèle, comparer des choix de mots alternatifs et déboguer le comportement de génération.

Quand utiliser : activez logprobs lorsque vous devez évaluer le niveau de confiance du modèle dans ses résultats, par exemple pour signaler les réponses peu fiables en vue d'un examen humain ou pour comparer la probabilité de différentes terminaisons. L'activation des logprobs peut augmenter légèrement la latence de réponse et la taille de la charge utile de réponse.

Présenté dans

v1.0

Modèles pris en charge

Tous les modèles Amazon Nova

Comment activer

Définissez la variable d'DEFAULT_LOGPROBSenvironnement lors de la création du SageMaker modèle.

Valeur par défaut

Désactivé

Valeurs valides

Nombre entier compris entre 1 et 20 (inclus)

Variable d'environnement

"Environment": { "DEFAULT_LOGPROBS": "5" }
Note

Vous pouvez remplacer cette valeur par défaut au cas par cas en incluant les top_logprobs paramètres logprobs et dans le corps de la demande. L'activation des logprobs peut augmenter légèrement la latence de réponse.

Décodage spéculatif Eagle3

Le décodage spéculatif Eagle3 est une technique d'optimisation qui accélère la génération de texte. Il fonctionne en utilisant un modèle de brouillon plus petit et plus rapide pour prévoir plusieurs jetons à l'avance, puis en vérifiant ces prédictions par rapport au modèle principal en une seule étape. Lorsque les prédictions sont correctes, le modèle génère effectivement plusieurs jetons dans le temps qu'il faudrait normalement pour en générer un. Le modèle principal vérifie toujours les jetons de brouillon, de sorte que le résultat final est identique à ce que le modèle principal produirait seul : seule la vitesse change, pas la qualité.

Quand l'utiliser : le décodage spéculatif Eagle3 est activé par défaut et profite à la plupart des charges de travail. Envisagez de le désactiver uniquement si vous observez un comportement inattendu ou si vous devez isoler les caractéristiques de performance lors du débogage.

Présenté dans

v1.0. Support pour la quantification FP8 avec le décodage spéculatif Eagle3 a été ajouté. v1.4

Modèles pris en charge

Tous les modèles Amazon Nova

Comment activer

Le décodage spéculatif Eagle3 est activé par défaut sans aucune configuration requise. DISABLE_SPECULATIVE_DECODINGUtilisez-le pour le désactiver.

Valeur par défaut

false(Le décodage spéculatif Eagle3 est activé)

Valeurs valides

true, false

Variable d'environnement

L'exemple suivant désactive le décodage spéculatif Eagle3 :

"Environment": { "DISABLE_SPECULATIVE_DECODING": "true" }

Type de données du cache KV

Définit le type de données pour le cache clé-valeur (KV) utilisé lors de l'inférence. Le cache KV stocke la mémoire des jetons précédents du modèle lors d'une conversation, ce qui lui permet de générer chaque nouveau jeton sans retraiter l'intégralité de l'entrée. Pour les longues séquences, ce cache peut consommer une quantité importante de mémoire GPU. La configuration du cache KV sur un type de données de faible précision tel que FP8 réduit l'utilisation de la mémoire et peut améliorer le débit, au prix de légères différences numériques de sortie.

Quand utiliser : activez le cache KV FP8 lorsque vous devez prendre en charge des longueurs de contexte plus longues ou une plus grande simultanéité sur votre instance. Cela est particulièrement utile sur les instances de GPU dont la mémoire est limitée. Testez votre cas d'utilisation pour vérifier que la qualité de sortie répond à vos exigences, car une précision moindre peut produire des résultats légèrement différents.

Présenté dans

v1.3

Modèles pris en charge

Tous les modèles Amazon Nova

Comment activer

Définissez la variable d'KV_CACHE_DTYPEenvironnement lors de la création du SageMaker modèle.

Valeur par défaut

Identique au type de données du modèle

Valeurs valides

fp8

Variable d'environnement

"Environment": { "KV_CACHE_DTYPE": "fp8" }
Note

La modification du type de données du cache KV peut produire des sorties légèrement différentes par rapport à la précision par défaut. Testez votre cas d'utilisation pour vérifier que la qualité de sortie répond à vos exigences.

Quantification

Définit le type de données de quantification pour les poids du modèle. La quantification compresse les poids du modèle dans un format de moindre précision (FP8 au lieu de la plus haute précision par défaut), ce qui réduit la quantité de mémoire GPU requise par le modèle. Cela peut améliorer le débit d'inférence et permettre à des modèles plus grands de s'adapter à des types d'instances plus petits, avec un impact minimal sur la qualité de sortie.

Quand utiliser : utilisez la quantification FP8 lorsque vous souhaitez réduire l'utilisation de la mémoire afin de permettre une plus grande simultanéité ou d'adapter un modèle à un type d'instance plus petit. Notez que certaines combinaisons de modèles et de types d'instances nécessitent une quantification FP8 automatique. Consultez l'avertissement ci-dessous.

Présenté dans

v1.3

Modèles pris en charge

Tous les modèles Amazon Nova

Comment activer

Définissez la variable d'QUANTIZATION_DTYPEenvironnement lors de la création du SageMaker modèle.

Valeur par défaut

Handicapé Cependant, la quantification FP8 est automatiquement activée pour certaines combinaisons de modèles et de types d'instances. Voir la note ci-dessous.

Valeurs valides

fp8

Variable d'environnement

"Environment": { "QUANTIZATION_DTYPE": "fp8" }
Important

Les combinaisons de modèles et de types d'instance suivantes nécessitent une quantification FP8. Pour ces configurations, la quantification est activée automatiquement et ne peut être ni désactivée ni remplacée :

  • Amazon Nova Lite sur ml.g6.12xlarge ou ml.g6.24xlarge

  • Nova 2 Lite activé ml.g6.48xlarge

Pour toutes les autres configurations, reportez-vous à la section Modèles et instances pris en charge pour plus de détails.

Nombre de jetons spéculatifs

Contrôle le nombre de jetons que le modèle de brouillon prédit à l'avance lors de chaque étape de décodage spéculatif d'Eagle3. Une valeur plus élevée signifie que le modèle provisoire tente de prévoir un plus grand nombre de jetons à la fois, ce qui peut améliorer le débit lorsque les prévisions sont précises. Si les prévisions du modèle provisoire divergent fréquemment de celles du modèle principal, une valeur inférieure peut être plus efficace.

Quand utiliser : augmentez cette valeur lorsque votre charge de travail produit des modèles de sortie prévisibles (par exemple, des données structurées ou du texte modélisé) que le modèle provisoire est susceptible de deviner correctement. Réduisez-le pour des résultats créatifs ou très variables où les prévisions sont moins fiables.

Présenté dans

v1.4

Modèles pris en charge

Tous les modèles Amazon Nova

Comment activer

Définissez la variable d'NUM_SPECULATIVE_TOKENSenvironnement lors de la création du SageMaker modèle.

Valeur par défaut

3

Valeurs valides

Nombre entier compris entre 1 et 10 (inclus)

Variable d'environnement

"Environment": { "NUM_SPECULATIVE_TOKENS": "5" }
Note

Ce paramètre ne s'applique que lorsque le décodage spéculatif Eagle3 est activé (est). DISABLE_SPECULATIVE_DECODING false Cela n'a aucun effet lorsque le décodage spéculatif est désactivé ou lors de l'utilisation du décodage par suffixe.

Décodage de suffixes

Le décodage des suffixes est une méthode alternative pour accélérer la génération de texte. Au lieu d'utiliser un modèle de brouillon distinct (comme le fait Eagle3), le décodage des suffixes recherche des modèles répétés dans le texte déjà généré ou dans l'invite de saisie, et réutilise ces modèles pour prédire les futurs jetons. Cette approche fonctionne bien lorsque la sortie est susceptible de contenir des phrases répétées, des formats structurés ou un contenu qui reflète étroitement l'entrée.

Quand utiliser : utilisez le décodage par suffixe pour les tâches dont la sortie contient des modèles répétitifs, telles que la génération de données structurées, le remplissage de modèles ou la synthèse de contenu réutilisant des phrases provenant de la source. Pour une génération à usage général où la sortie est très variée, la méthode Eagle3 par défaut fournit généralement un meilleur débit.

Présenté dans

v1.4

Modèles pris en charge

Tous les modèles Amazon Nova

Comment activer

Définissez la variable d'SPECULATIVE_DECODING_METHODenvironnement sur suffix lors de la création du SageMaker modèle.

Valeur par défaut

eagle3

Valeurs valides

eagle3, suffix

Variable d'environnement

"Environment": { "SPECULATIVE_DECODING_METHOD": "suffix" }
Note

Pour utiliser le décodage des suffixes, vous DISABLE_SPECULATIVE_DECODING devez définir ce paramètre sur false (valeur par défaut). Le réglage DISABLE_SPECULATIVE_DECODING sur true désactive toutes les méthodes de décodage spéculatif, y compris le décodage des suffixes.