

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Caractéristiques du conteneur d'inférence
<a name="nova-sagemaker-inference-container-features"></a>

Le conteneur d' SageMaker inférence Amazon Nova inclut un ensemble de fonctionnalités que vous pouvez activer pour personnaliser le comportement du modèle lors de l'inférence. Chaque fonctionnalité est introduite dans une version de conteneur spécifique et peut nécessiter des variables d'environnement, des paramètres de demande, ou les deux pour être activée.

Cette page répertorie les fonctionnalités disponibles dans le conteneur d'inférence, décrit comment activer chacune d'entre elles et identifie la version du conteneur dans laquelle la fonctionnalité a été introduite. Utilisez cette référence pour déterminer quelles fonctionnalités sont disponibles pour votre déploiement et comment les configurer.

Les fonctionnalités activées par le biais de variables d'environnement sont définies lorsque vous créez le SageMaker modèle ou la configuration du point de terminaison. Incluez-les dans le `Environment` paramètre de l'appel [CreateModel](https://docs.aws.amazon.com//sagemaker/latest/APIReference/API_CreateModel.html)d'API. Les fonctionnalités activées via les paramètres de demande sont définies par appel dans le corps de la demande.

**Note**  
Utilisez toujours la dernière image du conteneur pour accéder à toutes les fonctionnalités disponibles. La `SM-Inference-latest` balise pointe actuellement vers`v1.4`.

## Récapitulatif des caractéristiques
<a name="nova-sagemaker-inference-container-features-summary"></a>

Le tableau suivant fournit une référence rapide de toutes les fonctionnalités prises en charge dans le conteneur d' SageMaker inférence Amazon Nova.


**Résumé des fonctionnalités du conteneur d'inférence**  

| Fonctionnalité | Comment activer | Par défaut | Modèles pris en charge | Présenté dans | 
| --- | --- | --- | --- | --- | 
| [Température par défaut](#nova-sagemaker-inference-container-feature-default-temperature) | Variable d'environnement | 1.0 | Tous les modèles Amazon Nova | v1.0 | 
| [Top-p par défaut](#nova-sagemaker-inference-container-feature-default-top-p) | Variable d'environnement | 1.0 | Tous les modèles Amazon Nova | v1.0 | 
| [Top-k par défaut](#nova-sagemaker-inference-container-feature-default-top-k) | Variable d'environnement | -1(handicapé) | Tous les modèles Amazon Nova | v1.0 | 
| [Nombre maximum de nouveaux jetons par défaut](#nova-sagemaker-inference-container-feature-default-max-new-tokens) | Variable d'environnement | Longueur de contexte maximale du modèle | Tous les modèles Amazon Nova | v1.0 | 
| [Logprobs par défaut](#nova-sagemaker-inference-container-feature-default-logprobs) | Variable d'environnement | Désactivé | Tous les modèles Amazon Nova | v1.0 | 
| [Décodage spéculatif Eagle3](#nova-sagemaker-inference-container-feature-speculative-decoding) | Activée par défaut. | Activé | Tous les modèles Amazon Nova | v1.0 | 
| [Type de données du cache KV](#nova-sagemaker-inference-container-feature-kv-cache-dtype) | Variable d'environnement | Identique au type de données du modèle | Tous les modèles Amazon Nova | v1.3 | 
| [Quantification](#nova-sagemaker-inference-container-feature-quantization) | Variable d'environnement | Handicapé\* | Tous les modèles Amazon Nova | v1.3 | 
| [Nombre de jetons spéculatifs](#nova-sagemaker-inference-container-feature-num-speculative-tokens) | Variable d'environnement | 3 | Tous les modèles Amazon Nova | v1.4 | 
| [Décodage de suffixes](#nova-sagemaker-inference-container-feature-suffix-decoding) | Variable d'environnement | Désactivé | Tous les modèles Amazon Nova | v1.4 | 

**Important**  
\* La quantification FP8 est automatiquement activée et ne peut pas être désactivée pour les combinaisons de modèles et de types d'instance suivantes :  
Amazon Nova Lite sur `ml.g6.12xlarge` ou `ml.g6.24xlarge`
Nova 2 Lite activé `ml.g6.48xlarge`
Pour ces configurations, il n'est pas nécessaire de définir`QUANTIZATION_DTYPE`. Consultez [Quantification](#nova-sagemaker-inference-container-feature-quantization) pour plus de détails.

## Température par défaut
<a name="nova-sagemaker-inference-container-feature-default-temperature"></a>

Définit la température d'échantillonnage par défaut pour toutes les demandes d'inférence envoyées au point de terminaison. La température détermine le caractère aléatoire ou prévisible de la sortie du modèle. Une valeur de `0` permet au modèle de toujours choisir le mot suivant le plus probable, produisant ainsi un résultat cohérent et reproductible. Des valeurs plus élevées (jusqu'à`2`) incitent le modèle à choisir des mots moins probables, ce qui produit des réponses plus créatives et variées.

**Quand utiliser :** Abaissez la température (par exemple, `0.1` à`0.3`) pour les tâches qui nécessitent des réponses factuelles et cohérentes, telles que la classification ou l'extraction de données. Portez-le (par exemple, `0.7` à`1.0`) pour des tâches créatives telles que la rédaction d'histoires ou le brainstorming. La température fonctionne conjointement avec top-p et top-k : tous les trois contrôlent la façon dont le modèle sélectionne les jetons, et vous pouvez les combiner pour affiner le comportement de sortie.

Présenté dans  
`v1.0`

Modèles pris en charge  
Tous les modèles Amazon Nova

Comment activer  
Définissez la variable d'`DEFAULT_TEMPERATURE`environnement lors de la création du SageMaker modèle.

Valeur par défaut  
`1.0`

Valeurs valides  
Flottez entre `0` et `2` (inclus)

**Variable d'environnement**

```
"Environment": {
    "DEFAULT_TEMPERATURE": "0.7"
}
```

**Note**  
Vous pouvez remplacer cette valeur par défaut au cas par cas en incluant le `temperature` paramètre dans le corps de la demande.

## Top-p par défaut
<a name="nova-sagemaker-inference-container-feature-default-top-p"></a>

Définit la valeur supérieure par défaut pour toutes les demandes d'inférence. Top-p contrôle la diversité de sortie en limitant les choix du modèle à un sous-ensemble des mots les plus probables. Plus précisément, le modèle trie tous les mots suivants possibles par probabilité et ne prend en compte que le plus petit groupe dont la probabilité combinée atteint la valeur p maximale. Par exemple, un top-p de `0.9` signifie que le modèle ne prend en compte que les mots qui, ensemble, représentent 90 % de la probabilité, en ignorant les autres options peu probables.

**Quand l'utiliser : utilisez** une valeur supérieure de p inférieure (par exemple,`0.5`) pour que le modèle s'en tienne aux mots les plus fiables, produisant ainsi un résultat plus ciblé. Utilisez une valeur plus élevée (par exemple,`0.95`) pour permettre une plus grande variété. Top-p est souvent utilisé comme alternative à la température : les deux permettent de contrôler la diversité des sorties, mais le top-p s'adapte dynamiquement en fonction de la confiance du modèle à chaque étape. Vous pouvez utiliser les deux ensemble, auquel cas le modèle applique la contrainte la plus restrictive à chaque étape.

Présenté dans  
`v1.0`

Modèles pris en charge  
Tous les modèles Amazon Nova

Comment activer  
Définissez la variable d'`DEFAULT_TOP_P`environnement lors de la création du SageMaker modèle.

Valeur par défaut  
`1.0`

Valeurs valides  
Flottez entre `1e-10` et `1` (inclus)

**Variable d'environnement**

```
"Environment": {
    "DEFAULT_TOP_P": "0.9"
}
```

**Note**  
Vous pouvez remplacer cette valeur par défaut au cas par cas en incluant le `top_p` paramètre dans le corps de la demande.

## Top-k par défaut
<a name="nova-sagemaker-inference-container-feature-default-top-k"></a>

Définit la valeur top k par défaut pour toutes les demandes d'inférence. Top-k limite les choix du modèle à un nombre fixe de mots suivants les plus probables. Par exemple, un top k `50` signifie que le modèle ne prend en compte que les 50 mots les plus probables à chaque étape, quelles que soient leurs probabilités individuelles. La valeur de `-1` désactive cette limite, permettant au modèle de prendre en compte tous les mots possibles.

**Quand utiliser : utilisez** top-k lorsque vous souhaitez limiter strictement le nombre de choix de mots pris en compte par le modèle. Des valeurs faibles (par exemple`10`) produisent des résultats plus prévisibles, tandis que des valeurs élevées permettent une plus grande variété. Top-k peut être combiné avec la température et le topp : lorsque plusieurs commandes d'échantillonnage sont actives, le modèle les applique toutes, en utilisant celle qui est la plus restrictive à chaque étape.

Présenté dans  
`v1.0`

Modèles pris en charge  
Tous les modèles Amazon Nova

Comment activer  
Définissez la variable d'`DEFAULT_TOP_K`environnement lors de la création du SageMaker modèle.

Valeur par défaut  
`-1`(handicapé)

Valeurs valides  
Nombre entier `-1` ou supérieur. `-1`À utiliser pour prendre en compte tous les jetons.

**Variable d'environnement**

```
"Environment": {
    "DEFAULT_TOP_K": "50"
}
```

**Note**  
Vous pouvez remplacer cette valeur par défaut au cas par cas en incluant le `top_k` paramètre dans le corps de la demande.

## Nombre maximum de nouveaux jetons par défaut
<a name="nova-sagemaker-inference-container-feature-default-max-new-tokens"></a>

Définit le nombre maximum par défaut de jetons (mots ou parties de mots) que le modèle génère dans une réponse. Cette valeur s'applique à toutes les demandes sauf si elles sont remplacées. Utilisez-le pour contrôler la longueur des réponses et gérer les coûts sur l'ensemble de votre terminal.

**Quand utiliser :** définissez cette option lorsque vous souhaitez appliquer une longueur de réponse maximale cohérente pour toutes les demandes. Par exemple, définissez-le sur `256` pour les tâches à réponse courte ou `2048` pour la génération de contenu plus longue. La valeur maximale autorisée dépend de celle `CONTEXT_LENGTH` configurée pour votre point de terminaison, car les jetons d'entrée et les jetons de sortie ne peuvent pas dépasser la longueur du contexte.

Présenté dans  
`v1.0`

Modèles pris en charge  
Tous les modèles Amazon Nova

Comment activer  
Définissez la variable d'`DEFAULT_MAX_NEW_TOKENS`environnement lors de la création du SageMaker modèle.

Valeur par défaut  
Longueur de contexte maximale du modèle

Valeurs valides  
Nombre entier `1` ou supérieur

**Variable d'environnement**

```
"Environment": {
    "DEFAULT_MAX_NEW_TOKENS": "512"
}
```

**Note**  
Vous pouvez remplacer cette valeur par défaut au cas par cas en incluant le `max_completion_tokens` paramètre `max_tokens` ou dans le corps de la demande. La valeur maximale autorisée dépend de la valeur `CONTEXT_LENGTH` configurée pour votre point de terminaison.

## Logprobs par défaut
<a name="nova-sagemaker-inference-container-feature-default-logprobs"></a>

Définit le nombre par défaut de probabilités de log à renvoyer pour chaque jeton généré. Une probabilité logarithmique est un score numérique qui indique le degré de confiance du modèle dans le choix de chaque mot. Lorsque cette option est activée, la réponse inclut ces scores pour chaque jeton de sortie, ce qui est utile pour évaluer la fiabilité du modèle, comparer des choix de mots alternatifs et déboguer le comportement de génération.

**Quand utiliser :** activez logprobs lorsque vous devez évaluer le niveau de confiance du modèle dans ses résultats, par exemple pour signaler les réponses peu fiables en vue d'un examen humain ou pour comparer la probabilité de différentes terminaisons. L'activation des logprobs peut augmenter légèrement la latence de réponse et la taille de la charge utile de réponse.

Présenté dans  
`v1.0`

Modèles pris en charge  
Tous les modèles Amazon Nova

Comment activer  
Définissez la variable d'`DEFAULT_LOGPROBS`environnement lors de la création du SageMaker modèle.

Valeur par défaut  
Désactivé

Valeurs valides  
Nombre entier compris entre `1` et `20` (inclus)

**Variable d'environnement**

```
"Environment": {
    "DEFAULT_LOGPROBS": "5"
}
```

**Note**  
Vous pouvez remplacer cette valeur par défaut au cas par cas en incluant les `top_logprobs` paramètres `logprobs` et dans le corps de la demande. L'activation des logprobs peut augmenter légèrement la latence de réponse.

## Décodage spéculatif Eagle3
<a name="nova-sagemaker-inference-container-feature-speculative-decoding"></a>

Le décodage spéculatif Eagle3 est une technique d'optimisation qui accélère la génération de texte. Il fonctionne en utilisant un modèle de brouillon plus petit et plus rapide pour prévoir plusieurs jetons à l'avance, puis en vérifiant ces prédictions par rapport au modèle principal en une seule étape. Lorsque les prédictions sont correctes, le modèle génère effectivement plusieurs jetons dans le temps qu'il faudrait normalement pour en générer un. Le modèle principal vérifie toujours les jetons de brouillon, de sorte que le résultat final est identique à ce que le modèle principal produirait seul : seule la vitesse change, pas la qualité.

**Quand l'utiliser :** le décodage spéculatif Eagle3 est activé par défaut et profite à la plupart des charges de travail. Envisagez de le désactiver uniquement si vous observez un comportement inattendu ou si vous devez isoler les caractéristiques de performance lors du débogage.

Présenté dans  
`v1.0`. Support pour la quantification FP8 avec le décodage spéculatif Eagle3 a été ajouté. `v1.4`

Modèles pris en charge  
Tous les modèles Amazon Nova

Comment activer  
Le décodage spéculatif Eagle3 est activé par défaut sans aucune configuration requise. `DISABLE_SPECULATIVE_DECODING`Utilisez-le pour le désactiver.

Valeur par défaut  
`false`(Le décodage spéculatif Eagle3 est activé)

Valeurs valides  
`true`, `false`

**Variable d'environnement**

L'exemple suivant désactive le décodage spéculatif Eagle3 :

```
"Environment": {
    "DISABLE_SPECULATIVE_DECODING": "true"
}
```

## Type de données du cache KV
<a name="nova-sagemaker-inference-container-feature-kv-cache-dtype"></a>

Définit le type de données pour le cache clé-valeur (KV) utilisé lors de l'inférence. Le cache KV stocke la mémoire des jetons précédents du modèle lors d'une conversation, ce qui lui permet de générer chaque nouveau jeton sans retraiter l'intégralité de l'entrée. Pour les longues séquences, ce cache peut consommer une quantité importante de mémoire GPU. La configuration du cache KV sur un type de données de faible précision tel que FP8 réduit l'utilisation de la mémoire et peut améliorer le débit, au prix de légères différences numériques de sortie.

**Quand utiliser :** activez le cache KV FP8 lorsque vous devez prendre en charge des longueurs de contexte plus longues ou une plus grande simultanéité sur votre instance. Cela est particulièrement utile sur les instances de GPU dont la mémoire est limitée. Testez votre cas d'utilisation pour vérifier que la qualité de sortie répond à vos exigences, car une précision moindre peut produire des résultats légèrement différents.

Présenté dans  
`v1.3`

Modèles pris en charge  
Tous les modèles Amazon Nova

Comment activer  
Définissez la variable d'`KV_CACHE_DTYPE`environnement lors de la création du SageMaker modèle.

Valeur par défaut  
Identique au type de données du modèle

Valeurs valides  
`fp8`

**Variable d'environnement**

```
"Environment": {
    "KV_CACHE_DTYPE": "fp8"
}
```

**Note**  
La modification du type de données du cache KV peut produire des sorties légèrement différentes par rapport à la précision par défaut. Testez votre cas d'utilisation pour vérifier que la qualité de sortie répond à vos exigences.

## Quantification
<a name="nova-sagemaker-inference-container-feature-quantization"></a>

Définit le type de données de quantification pour les poids du modèle. La quantification compresse les poids du modèle dans un format de moindre précision (FP8 au lieu de la plus haute précision par défaut), ce qui réduit la quantité de mémoire GPU requise par le modèle. Cela peut améliorer le débit d'inférence et permettre à des modèles plus grands de s'adapter à des types d'instances plus petits, avec un impact minimal sur la qualité de sortie.

**Quand utiliser : utilisez** la quantification FP8 lorsque vous souhaitez réduire l'utilisation de la mémoire afin de permettre une plus grande simultanéité ou d'adapter un modèle à un type d'instance plus petit. Notez que certaines combinaisons de modèles et de types d'instances nécessitent une quantification FP8 automatique. Consultez l'avertissement ci-dessous.

Présenté dans  
`v1.3`

Modèles pris en charge  
Tous les modèles Amazon Nova

Comment activer  
Définissez la variable d'`QUANTIZATION_DTYPE`environnement lors de la création du SageMaker modèle.

Valeur par défaut  
Handicapé Cependant, la quantification FP8 est automatiquement activée pour certaines combinaisons de modèles et de types d'instances. Voir la note ci-dessous.

Valeurs valides  
`fp8`

**Variable d'environnement**

```
"Environment": {
    "QUANTIZATION_DTYPE": "fp8"
}
```

**Important**  
Les combinaisons de modèles et de types d'instance suivantes nécessitent une quantification FP8. Pour ces configurations, la quantification est activée automatiquement et ne peut être ni désactivée ni remplacée :  
Amazon Nova Lite sur `ml.g6.12xlarge` ou `ml.g6.24xlarge`
Nova 2 Lite activé `ml.g6.48xlarge`
Pour toutes les autres configurations, reportez-vous à la section [Modèles et instances pris en charge](nova-model-sagemaker-inference.md#nova-sagemaker-inference-supported) pour plus de détails.

## Nombre de jetons spéculatifs
<a name="nova-sagemaker-inference-container-feature-num-speculative-tokens"></a>

Contrôle le nombre de jetons que le modèle de brouillon prédit à l'avance lors de chaque étape de décodage spéculatif d'Eagle3. Une valeur plus élevée signifie que le modèle provisoire tente de prévoir un plus grand nombre de jetons à la fois, ce qui peut améliorer le débit lorsque les prévisions sont précises. Si les prévisions du modèle provisoire divergent fréquemment de celles du modèle principal, une valeur inférieure peut être plus efficace.

**Quand utiliser :** augmentez cette valeur lorsque votre charge de travail produit des modèles de sortie prévisibles (par exemple, des données structurées ou du texte modélisé) que le modèle provisoire est susceptible de deviner correctement. Réduisez-le pour des résultats créatifs ou très variables où les prévisions sont moins fiables.

Présenté dans  
`v1.4`

Modèles pris en charge  
Tous les modèles Amazon Nova

Comment activer  
Définissez la variable d'`NUM_SPECULATIVE_TOKENS`environnement lors de la création du SageMaker modèle.

Valeur par défaut  
`3`

Valeurs valides  
Nombre entier compris entre `1` et `10` (inclus)

**Variable d'environnement**

```
"Environment": {
    "NUM_SPECULATIVE_TOKENS": "5"
}
```

**Note**  
Ce paramètre ne s'applique que lorsque le décodage spéculatif Eagle3 est activé (est). `DISABLE_SPECULATIVE_DECODING` `false` Cela n'a aucun effet lorsque le décodage spéculatif est désactivé ou lors de l'utilisation du décodage par suffixe.

## Décodage de suffixes
<a name="nova-sagemaker-inference-container-feature-suffix-decoding"></a>

Le décodage des suffixes est une méthode alternative pour accélérer la génération de texte. Au lieu d'utiliser un modèle de brouillon distinct (comme le fait Eagle3), le décodage des suffixes recherche des modèles répétés dans le texte déjà généré ou dans l'invite de saisie, et réutilise ces modèles pour prédire les futurs jetons. Cette approche fonctionne bien lorsque la sortie est susceptible de contenir des phrases répétées, des formats structurés ou un contenu qui reflète étroitement l'entrée.

**Quand utiliser : utilisez** le décodage par suffixe pour les tâches dont la sortie contient des modèles répétitifs, telles que la génération de données structurées, le remplissage de modèles ou la synthèse de contenu réutilisant des phrases provenant de la source. Pour une génération à usage général où la sortie est très variée, la méthode Eagle3 par défaut fournit généralement un meilleur débit.

Présenté dans  
`v1.4`

Modèles pris en charge  
Tous les modèles Amazon Nova

Comment activer  
Définissez la variable d'`SPECULATIVE_DECODING_METHOD`environnement sur `suffix` lors de la création du SageMaker modèle.

Valeur par défaut  
`eagle3`

Valeurs valides  
`eagle3`, `suffix`

**Variable d'environnement**

```
"Environment": {
    "SPECULATIVE_DECODING_METHOD": "suffix"
}
```

**Note**  
Pour utiliser le décodage des suffixes, vous `DISABLE_SPECULATIVE_DECODING` devez définir ce paramètre sur `false` (valeur par défaut). Le réglage `DISABLE_SPECULATIVE_DECODING` sur `true` désactive toutes les méthodes de décodage spéculatif, y compris le décodage des suffixes.