Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Caractéristiques du conteneur d'inférence
Le conteneur d' SageMaker inférence Amazon Nova inclut un ensemble de fonctionnalités que vous pouvez activer pour personnaliser le comportement du modèle lors de l'inférence. Chaque fonctionnalité est introduite dans une version de conteneur spécifique et peut nécessiter des variables d'environnement, des paramètres de demande, ou les deux pour être activée.
Cette page répertorie les fonctionnalités disponibles dans le conteneur d'inférence, décrit comment activer chacune d'entre elles et identifie la version du conteneur dans laquelle la fonctionnalité a été introduite. Utilisez cette référence pour déterminer quelles fonctionnalités sont disponibles pour votre déploiement et comment les configurer.
Les fonctionnalités activées par le biais de variables d'environnement sont définies lorsque vous créez le SageMaker modèle ou la configuration du point de terminaison. Incluez-les dans le Environment paramètre de l'appel CreateModeld'API. Les fonctionnalités activées via les paramètres de demande sont définies par appel dans le corps de la demande.
Note
Utilisez toujours la dernière image du conteneur pour accéder à toutes les fonctionnalités disponibles. La SM-Inference-latest balise pointe actuellement versv1.4.
Récapitulatif des caractéristiques
Le tableau suivant fournit une référence rapide de toutes les fonctionnalités prises en charge dans le conteneur d' SageMaker inférence Amazon Nova.
| Fonctionnalité | Comment activer | Par défaut | Modèles pris en charge | Présenté dans |
|---|---|---|---|---|
| Température par défaut | Variable d'environnement | 1.0 |
Tous les modèles Amazon Nova | v1.0 |
| Top-p par défaut | Variable d'environnement | 1.0 |
Tous les modèles Amazon Nova | v1.0 |
| Top-k par défaut | Variable d'environnement | -1(handicapé) |
Tous les modèles Amazon Nova | v1.0 |
| Nombre maximum de nouveaux jetons par défaut | Variable d'environnement | Longueur de contexte maximale du modèle | Tous les modèles Amazon Nova | v1.0 |
| Logprobs par défaut | Variable d'environnement | Désactivé | Tous les modèles Amazon Nova | v1.0 |
| Décodage spéculatif Eagle3 | Activée par défaut. | Activé | Tous les modèles Amazon Nova | v1.0 |
| Type de données du cache KV | Variable d'environnement | Identique au type de données du modèle | Tous les modèles Amazon Nova | v1.3 |
| Quantification | Variable d'environnement | Handicapé* | Tous les modèles Amazon Nova | v1.3 |
| Nombre de jetons spéculatifs | Variable d'environnement | 3 |
Tous les modèles Amazon Nova | v1.4 |
| Décodage de suffixes | Variable d'environnement | Désactivé | Tous les modèles Amazon Nova | v1.4 |
Important
* La quantification FP8 est automatiquement activée et ne peut pas être désactivée pour les combinaisons de modèles et de types d'instance suivantes :
-
Amazon Nova Lite sur
ml.g6.12xlargeouml.g6.24xlarge -
Nova 2 Lite activé
ml.g6.48xlarge
Pour ces configurations, il n'est pas nécessaire de définirQUANTIZATION_DTYPE. Consultez Quantification pour plus de détails.
Température par défaut
Définit la température d'échantillonnage par défaut pour toutes les demandes d'inférence envoyées au point de terminaison. La température détermine le caractère aléatoire ou prévisible de la sortie du modèle. Une valeur de 0 permet au modèle de toujours choisir le mot suivant le plus probable, produisant ainsi un résultat cohérent et reproductible. Des valeurs plus élevées (jusqu'à2) incitent le modèle à choisir des mots moins probables, ce qui produit des réponses plus créatives et variées.
Quand utiliser : Abaissez la température (par exemple, 0.1 à0.3) pour les tâches qui nécessitent des réponses factuelles et cohérentes, telles que la classification ou l'extraction de données. Portez-le (par exemple, 0.7 à1.0) pour des tâches créatives telles que la rédaction d'histoires ou le brainstorming. La température fonctionne conjointement avec top-p et top-k : tous les trois contrôlent la façon dont le modèle sélectionne les jetons, et vous pouvez les combiner pour affiner le comportement de sortie.
- Présenté dans
v1.0- Modèles pris en charge
Tous les modèles Amazon Nova
- Comment activer
-
Définissez la variable d'
DEFAULT_TEMPERATUREenvironnement lors de la création du SageMaker modèle. - Valeur par défaut
1.0- Valeurs valides
Flottez entre
0et2(inclus)
Variable d'environnement
"Environment": { "DEFAULT_TEMPERATURE": "0.7" }
Note
Vous pouvez remplacer cette valeur par défaut au cas par cas en incluant le temperature paramètre dans le corps de la demande.
Top-p par défaut
Définit la valeur supérieure par défaut pour toutes les demandes d'inférence. Top-p contrôle la diversité de sortie en limitant les choix du modèle à un sous-ensemble des mots les plus probables. Plus précisément, le modèle trie tous les mots suivants possibles par probabilité et ne prend en compte que le plus petit groupe dont la probabilité combinée atteint la valeur p maximale. Par exemple, un top-p de 0.9 signifie que le modèle ne prend en compte que les mots qui, ensemble, représentent 90 % de la probabilité, en ignorant les autres options peu probables.
Quand l'utiliser : utilisez une valeur supérieure de p inférieure (par exemple,0.5) pour que le modèle s'en tienne aux mots les plus fiables, produisant ainsi un résultat plus ciblé. Utilisez une valeur plus élevée (par exemple,0.95) pour permettre une plus grande variété. Top-p est souvent utilisé comme alternative à la température : les deux permettent de contrôler la diversité des sorties, mais le top-p s'adapte dynamiquement en fonction de la confiance du modèle à chaque étape. Vous pouvez utiliser les deux ensemble, auquel cas le modèle applique la contrainte la plus restrictive à chaque étape.
- Présenté dans
v1.0- Modèles pris en charge
Tous les modèles Amazon Nova
- Comment activer
-
Définissez la variable d'
DEFAULT_TOP_Penvironnement lors de la création du SageMaker modèle. - Valeur par défaut
1.0- Valeurs valides
Flottez entre
1e-10et1(inclus)
Variable d'environnement
"Environment": { "DEFAULT_TOP_P": "0.9" }
Note
Vous pouvez remplacer cette valeur par défaut au cas par cas en incluant le top_p paramètre dans le corps de la demande.
Top-k par défaut
Définit la valeur top k par défaut pour toutes les demandes d'inférence. Top-k limite les choix du modèle à un nombre fixe de mots suivants les plus probables. Par exemple, un top k 50 signifie que le modèle ne prend en compte que les 50 mots les plus probables à chaque étape, quelles que soient leurs probabilités individuelles. La valeur de -1 désactive cette limite, permettant au modèle de prendre en compte tous les mots possibles.
Quand utiliser : utilisez top-k lorsque vous souhaitez limiter strictement le nombre de choix de mots pris en compte par le modèle. Des valeurs faibles (par exemple10) produisent des résultats plus prévisibles, tandis que des valeurs élevées permettent une plus grande variété. Top-k peut être combiné avec la température et le topp : lorsque plusieurs commandes d'échantillonnage sont actives, le modèle les applique toutes, en utilisant celle qui est la plus restrictive à chaque étape.
- Présenté dans
v1.0- Modèles pris en charge
Tous les modèles Amazon Nova
- Comment activer
-
Définissez la variable d'
DEFAULT_TOP_Kenvironnement lors de la création du SageMaker modèle. - Valeur par défaut
-1(handicapé)- Valeurs valides
Nombre entier
-1ou supérieur.-1À utiliser pour prendre en compte tous les jetons.
Variable d'environnement
"Environment": { "DEFAULT_TOP_K": "50" }
Note
Vous pouvez remplacer cette valeur par défaut au cas par cas en incluant le top_k paramètre dans le corps de la demande.
Nombre maximum de nouveaux jetons par défaut
Définit le nombre maximum par défaut de jetons (mots ou parties de mots) que le modèle génère dans une réponse. Cette valeur s'applique à toutes les demandes sauf si elles sont remplacées. Utilisez-le pour contrôler la longueur des réponses et gérer les coûts sur l'ensemble de votre terminal.
Quand utiliser : définissez cette option lorsque vous souhaitez appliquer une longueur de réponse maximale cohérente pour toutes les demandes. Par exemple, définissez-le sur 256 pour les tâches à réponse courte ou 2048 pour la génération de contenu plus longue. La valeur maximale autorisée dépend de celle CONTEXT_LENGTH configurée pour votre point de terminaison, car les jetons d'entrée et les jetons de sortie ne peuvent pas dépasser la longueur du contexte.
- Présenté dans
v1.0- Modèles pris en charge
Tous les modèles Amazon Nova
- Comment activer
-
Définissez la variable d'
DEFAULT_MAX_NEW_TOKENSenvironnement lors de la création du SageMaker modèle. - Valeur par défaut
Longueur de contexte maximale du modèle
- Valeurs valides
Nombre entier
1ou supérieur
Variable d'environnement
"Environment": { "DEFAULT_MAX_NEW_TOKENS": "512" }
Note
Vous pouvez remplacer cette valeur par défaut au cas par cas en incluant le max_completion_tokens paramètre max_tokens ou dans le corps de la demande. La valeur maximale autorisée dépend de la valeur CONTEXT_LENGTH configurée pour votre point de terminaison.
Logprobs par défaut
Définit le nombre par défaut de probabilités de log à renvoyer pour chaque jeton généré. Une probabilité logarithmique est un score numérique qui indique le degré de confiance du modèle dans le choix de chaque mot. Lorsque cette option est activée, la réponse inclut ces scores pour chaque jeton de sortie, ce qui est utile pour évaluer la fiabilité du modèle, comparer des choix de mots alternatifs et déboguer le comportement de génération.
Quand utiliser : activez logprobs lorsque vous devez évaluer le niveau de confiance du modèle dans ses résultats, par exemple pour signaler les réponses peu fiables en vue d'un examen humain ou pour comparer la probabilité de différentes terminaisons. L'activation des logprobs peut augmenter légèrement la latence de réponse et la taille de la charge utile de réponse.
- Présenté dans
v1.0- Modèles pris en charge
Tous les modèles Amazon Nova
- Comment activer
-
Définissez la variable d'
DEFAULT_LOGPROBSenvironnement lors de la création du SageMaker modèle. - Valeur par défaut
Désactivé
- Valeurs valides
Nombre entier compris entre
1et20(inclus)
Variable d'environnement
"Environment": { "DEFAULT_LOGPROBS": "5" }
Note
Vous pouvez remplacer cette valeur par défaut au cas par cas en incluant les top_logprobs paramètres logprobs et dans le corps de la demande. L'activation des logprobs peut augmenter légèrement la latence de réponse.
Décodage spéculatif Eagle3
Le décodage spéculatif Eagle3 est une technique d'optimisation qui accélère la génération de texte. Il fonctionne en utilisant un modèle de brouillon plus petit et plus rapide pour prévoir plusieurs jetons à l'avance, puis en vérifiant ces prédictions par rapport au modèle principal en une seule étape. Lorsque les prédictions sont correctes, le modèle génère effectivement plusieurs jetons dans le temps qu'il faudrait normalement pour en générer un. Le modèle principal vérifie toujours les jetons de brouillon, de sorte que le résultat final est identique à ce que le modèle principal produirait seul : seule la vitesse change, pas la qualité.
Quand l'utiliser : le décodage spéculatif Eagle3 est activé par défaut et profite à la plupart des charges de travail. Envisagez de le désactiver uniquement si vous observez un comportement inattendu ou si vous devez isoler les caractéristiques de performance lors du débogage.
- Présenté dans
v1.0. Support pour la quantification FP8 avec le décodage spéculatif Eagle3 a été ajouté.v1.4- Modèles pris en charge
Tous les modèles Amazon Nova
- Comment activer
-
Le décodage spéculatif Eagle3 est activé par défaut sans aucune configuration requise.
DISABLE_SPECULATIVE_DECODINGUtilisez-le pour le désactiver. - Valeur par défaut
false(Le décodage spéculatif Eagle3 est activé)- Valeurs valides
true,false
Variable d'environnement
L'exemple suivant désactive le décodage spéculatif Eagle3 :
"Environment": { "DISABLE_SPECULATIVE_DECODING": "true" }
Type de données du cache KV
Définit le type de données pour le cache clé-valeur (KV) utilisé lors de l'inférence. Le cache KV stocke la mémoire des jetons précédents du modèle lors d'une conversation, ce qui lui permet de générer chaque nouveau jeton sans retraiter l'intégralité de l'entrée. Pour les longues séquences, ce cache peut consommer une quantité importante de mémoire GPU. La configuration du cache KV sur un type de données de faible précision tel que FP8 réduit l'utilisation de la mémoire et peut améliorer le débit, au prix de légères différences numériques de sortie.
Quand utiliser : activez le cache KV FP8 lorsque vous devez prendre en charge des longueurs de contexte plus longues ou une plus grande simultanéité sur votre instance. Cela est particulièrement utile sur les instances de GPU dont la mémoire est limitée. Testez votre cas d'utilisation pour vérifier que la qualité de sortie répond à vos exigences, car une précision moindre peut produire des résultats légèrement différents.
- Présenté dans
v1.3- Modèles pris en charge
Tous les modèles Amazon Nova
- Comment activer
-
Définissez la variable d'
KV_CACHE_DTYPEenvironnement lors de la création du SageMaker modèle. - Valeur par défaut
Identique au type de données du modèle
- Valeurs valides
fp8
Variable d'environnement
"Environment": { "KV_CACHE_DTYPE": "fp8" }
Note
La modification du type de données du cache KV peut produire des sorties légèrement différentes par rapport à la précision par défaut. Testez votre cas d'utilisation pour vérifier que la qualité de sortie répond à vos exigences.
Quantification
Définit le type de données de quantification pour les poids du modèle. La quantification compresse les poids du modèle dans un format de moindre précision (FP8 au lieu de la plus haute précision par défaut), ce qui réduit la quantité de mémoire GPU requise par le modèle. Cela peut améliorer le débit d'inférence et permettre à des modèles plus grands de s'adapter à des types d'instances plus petits, avec un impact minimal sur la qualité de sortie.
Quand utiliser : utilisez la quantification FP8 lorsque vous souhaitez réduire l'utilisation de la mémoire afin de permettre une plus grande simultanéité ou d'adapter un modèle à un type d'instance plus petit. Notez que certaines combinaisons de modèles et de types d'instances nécessitent une quantification FP8 automatique. Consultez l'avertissement ci-dessous.
- Présenté dans
v1.3- Modèles pris en charge
Tous les modèles Amazon Nova
- Comment activer
-
Définissez la variable d'
QUANTIZATION_DTYPEenvironnement lors de la création du SageMaker modèle. - Valeur par défaut
Handicapé Cependant, la quantification FP8 est automatiquement activée pour certaines combinaisons de modèles et de types d'instances. Voir la note ci-dessous.
- Valeurs valides
fp8
Variable d'environnement
"Environment": { "QUANTIZATION_DTYPE": "fp8" }
Important
Les combinaisons de modèles et de types d'instance suivantes nécessitent une quantification FP8. Pour ces configurations, la quantification est activée automatiquement et ne peut être ni désactivée ni remplacée :
-
Amazon Nova Lite sur
ml.g6.12xlargeouml.g6.24xlarge -
Nova 2 Lite activé
ml.g6.48xlarge
Pour toutes les autres configurations, reportez-vous à la section Modèles et instances pris en charge pour plus de détails.
Nombre de jetons spéculatifs
Contrôle le nombre de jetons que le modèle de brouillon prédit à l'avance lors de chaque étape de décodage spéculatif d'Eagle3. Une valeur plus élevée signifie que le modèle provisoire tente de prévoir un plus grand nombre de jetons à la fois, ce qui peut améliorer le débit lorsque les prévisions sont précises. Si les prévisions du modèle provisoire divergent fréquemment de celles du modèle principal, une valeur inférieure peut être plus efficace.
Quand utiliser : augmentez cette valeur lorsque votre charge de travail produit des modèles de sortie prévisibles (par exemple, des données structurées ou du texte modélisé) que le modèle provisoire est susceptible de deviner correctement. Réduisez-le pour des résultats créatifs ou très variables où les prévisions sont moins fiables.
- Présenté dans
v1.4- Modèles pris en charge
Tous les modèles Amazon Nova
- Comment activer
-
Définissez la variable d'
NUM_SPECULATIVE_TOKENSenvironnement lors de la création du SageMaker modèle. - Valeur par défaut
3- Valeurs valides
Nombre entier compris entre
1et10(inclus)
Variable d'environnement
"Environment": { "NUM_SPECULATIVE_TOKENS": "5" }
Note
Ce paramètre ne s'applique que lorsque le décodage spéculatif Eagle3 est activé (est). DISABLE_SPECULATIVE_DECODING false Cela n'a aucun effet lorsque le décodage spéculatif est désactivé ou lors de l'utilisation du décodage par suffixe.
Décodage de suffixes
Le décodage des suffixes est une méthode alternative pour accélérer la génération de texte. Au lieu d'utiliser un modèle de brouillon distinct (comme le fait Eagle3), le décodage des suffixes recherche des modèles répétés dans le texte déjà généré ou dans l'invite de saisie, et réutilise ces modèles pour prédire les futurs jetons. Cette approche fonctionne bien lorsque la sortie est susceptible de contenir des phrases répétées, des formats structurés ou un contenu qui reflète étroitement l'entrée.
Quand utiliser : utilisez le décodage par suffixe pour les tâches dont la sortie contient des modèles répétitifs, telles que la génération de données structurées, le remplissage de modèles ou la synthèse de contenu réutilisant des phrases provenant de la source. Pour une génération à usage général où la sortie est très variée, la méthode Eagle3 par défaut fournit généralement un meilleur débit.
- Présenté dans
v1.4- Modèles pris en charge
Tous les modèles Amazon Nova
- Comment activer
-
Définissez la variable d'
SPECULATIVE_DECODING_METHODenvironnement sursuffixlors de la création du SageMaker modèle. - Valeur par défaut
eagle3- Valeurs valides
eagle3,suffix
Variable d'environnement
"Environment": { "SPECULATIVE_DECODING_METHOD": "suffix" }
Note
Pour utiliser le décodage des suffixes, vous DISABLE_SPECULATIVE_DECODING devez définir ce paramètre sur false (valeur par défaut). Le réglage DISABLE_SPECULATIVE_DECODING sur true désactive toutes les méthodes de décodage spéculatif, y compris le décodage des suffixes.