

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Caratteristiche del contenitore di inferenza
<a name="nova-sagemaker-inference-container-features"></a>

Il contenitore di SageMaker inferenza Amazon Nova include una serie di funzionalità che puoi abilitare per personalizzare il comportamento del modello durante l'inferenza. Ogni funzionalità viene introdotta in una versione specifica del contenitore e può richiedere l'attivazione di variabili di ambiente, parametri di richiesta o entrambi.

Questa pagina elenca le funzionalità disponibili nel contenitore di inferenza, descrive come abilitarle ciascuna e identifica la versione del contenitore in cui è stata introdotta la funzionalità. Utilizza questo riferimento per determinare quali funzionalità sono disponibili per la tua distribuzione e come configurarle.

Le funzionalità abilitate tramite variabili di ambiente vengono impostate al momento della creazione del SageMaker modello o della configurazione dell'endpoint. Includile nel `Environment` parametro della chiamata [CreateModel](https://docs.aws.amazon.com//sagemaker/latest/APIReference/API_CreateModel.html)API. Le funzionalità abilitate tramite i parametri della richiesta vengono impostate per ogni chiamata nel corpo della richiesta.

**Nota**  
Usa sempre l'immagine del contenitore più recente per accedere a tutte le funzionalità disponibili. Il `SM-Inference-latest` tag attualmente punta a`v1.4`.

## Sintesi delle funzionalità
<a name="nova-sagemaker-inference-container-features-summary"></a>

La tabella seguente fornisce un riferimento rapido di tutte le funzionalità supportate nel contenitore di SageMaker inferenza Amazon Nova.


**Riepilogo delle funzionalità del contenitore di inferenza**  

| Funzionalità | Come abilitare | Predefinita | Modelli supportati | Introdotta in | 
| --- | --- | --- | --- | --- | 
| [Temperatura predefinita](#nova-sagemaker-inference-container-feature-default-temperature) | Variabile di ambiente | 1.0 | Tutti i modelli Amazon Nova | v1.0 | 
| [Top-p predefinito](#nova-sagemaker-inference-container-feature-default-top-p) | Variabile di ambiente | 1.0 | Tutti i modelli Amazon Nova | v1.0 | 
| [Top-k predefinito](#nova-sagemaker-inference-container-feature-default-top-k) | Variabile di ambiente | -1(disabilitato) | Tutti i modelli Amazon Nova | v1.0 | 
| [Numero massimo di nuovi token predefinito](#nova-sagemaker-inference-container-feature-default-max-new-tokens) | Variabile di ambiente | Lunghezza massima del contesto del modello | Tutti i modelli Amazon Nova | v1.0 | 
| [Logprobs predefiniti](#nova-sagemaker-inference-container-feature-default-logprobs) | Variabile di ambiente | Disabilitato | Tutti i modelli Amazon Nova | v1.0 | 
| [Decodifica speculativa Eagle3](#nova-sagemaker-inference-container-feature-speculative-decoding) | Abilitata per default | Abilitato | Tutti i modelli Amazon Nova | v1.0 | 
| [Tipo di dati della cache KV](#nova-sagemaker-inference-container-feature-kv-cache-dtype) | Variabile di ambiente | Uguale al tipo di dati del modello | Tutti i modelli Amazon Nova | v1.3 | 
| [Quantizzazione](#nova-sagemaker-inference-container-feature-quantization) | Variabile di ambiente | Disabilitato\* | Tutti i modelli Amazon Nova | v1.3 | 
| [Numero di token speculativi](#nova-sagemaker-inference-container-feature-num-speculative-tokens) | Variabile di ambiente | 3 | Tutti i modelli Amazon Nova | v1.4 | 
| [Decodifica dei suffissi](#nova-sagemaker-inference-container-feature-suffix-decoding) | Variabile di ambiente | Disabilitato | Tutti i modelli Amazon Nova | v1.4 | 

**Importante**  
\* La quantizzazione FP8 è abilitata automaticamente e non può essere disabilitata per le seguenti combinazioni di modelli e tipi di istanza:  
Amazon Nova Lite su `ml.g6.12xlarge` o `ml.g6.24xlarge`
Nova 2 Lite attivo `ml.g6.48xlarge`
Per queste configurazioni, non è necessario impostare`QUANTIZATION_DTYPE`. Per informazioni dettagliate, vedi [Quantizzazione](#nova-sagemaker-inference-container-feature-quantization).

## Temperatura predefinita
<a name="nova-sagemaker-inference-container-feature-default-temperature"></a>

Imposta la temperatura di campionamento predefinita per tutte le richieste di inferenza inviate all'endpoint. La temperatura controlla la casualità o la prevedibilità dell'output del modello. Un valore di `0` fa sì che il modello scelga sempre la parola successiva più probabile, producendo un output coerente e ripetibile. Valori più alti (fino a`2`) rendono il modello più propenso a scegliere parole meno probabili, producendo risposte più creative e varie.

**Quando usarlo:** abbassa la temperatura (ad esempio, `0.1` to`0.3`) per attività che richiedono risposte concrete e coerenti, come la classificazione o l'estrazione dei dati. Utilizzalo (ad esempio, per`1.0`) `0.7` per attività creative come la scrittura di storie o il brainstorming. La temperatura funziona insieme a top-p e top-k: tutti e tre controllano il modo in cui il modello seleziona i token e puoi combinarli per ottimizzare il comportamento di output.

Introdotta in  
`v1.0`

Modelli supportati  
Tutti i modelli Amazon Nova

Come abilitare  
Imposta la variabile di `DEFAULT_TEMPERATURE` ambiente durante la creazione del SageMaker modello.

Valore predefinito  
`1.0`

Valori validi  
Fluttua tra `0` e `2` (incluso)

**Variabile d'ambiente**

```
"Environment": {
    "DEFAULT_TEMPERATURE": "0.7"
}
```

**Nota**  
È possibile sovrascrivere questa impostazione predefinita in base alla richiesta includendo il `temperature` parametro nel corpo della richiesta.

## Top-p predefinito
<a name="nova-sagemaker-inference-container-feature-default-top-p"></a>

Imposta il valore top-p predefinito per tutte le richieste di inferenza. Top-p controlla la diversità dell'output limitando le scelte del modello a un sottoinsieme delle parole più probabili. In particolare, il modello ordina tutte le possibili parole successive in base alla probabilità e considera solo il gruppo più piccolo la cui probabilità combinata raggiunge il valore massimo p. Ad esempio, un massimo di `0.9` significa che il modello considera solo le parole che insieme rappresentano il 90% della probabilità, ignorando le restanti opzioni improbabili.

**Quando utilizzarlo: utilizzate** un valore top-p più basso (ad esempio`0.5`) per fare in modo che il modello si attenga a parole ad alta confidenza, producendo risultati più mirati. Utilizzate un valore più alto (ad esempio,`0.95`) per consentire una maggiore varietà. Top-p viene spesso utilizzato come alternativa alla temperatura: entrambi controllano la diversità di uscita, ma top-p si adatta dinamicamente in base alla fiducia del modello in ogni fase. È possibile utilizzarli entrambi insieme, nel qual caso il modello applica il vincolo più restrittivo in ogni fase.

Introdotta in  
`v1.0`

Modelli supportati  
Tutti i modelli Amazon Nova

Come abilitare  
Imposta la variabile di `DEFAULT_TOP_P` ambiente durante la creazione del SageMaker modello.

Valore predefinito  
`1.0`

Valori validi  
Fluttua tra `1e-10` e `1` (incluso)

**Variabile d'ambiente**

```
"Environment": {
    "DEFAULT_TOP_P": "0.9"
}
```

**Nota**  
È possibile sovrascrivere questa impostazione predefinita in base alla richiesta includendo il `top_p` parametro nel corpo della richiesta.

## Top-k predefinito
<a name="nova-sagemaker-inference-container-feature-default-top-k"></a>

Imposta il valore top-k predefinito per tutte le richieste di inferenza. Top-k limita le scelte del modello a un numero fisso delle parole successive più probabili. Ad esempio, una top k di `50` significa che il modello considera solo le 50 parole più probabili in ogni fase, indipendentemente dalle probabilità individuali. Il valore di `-1` disabilita questo limite, permettendo al modello di prendere in considerazione tutte le parole possibili.

**Quando usarlo: Usa** top-k quando desideri un limite massimo al numero di scelte di parole prese in considerazione dal modello. Valori più bassi (ad esempio`10`) producono un output più prevedibile, mentre valori più alti consentono una maggiore varietà. Top-k può essere combinato con temperatura e top-p: quando sono attivi più controlli di campionamento, il modello li applica tutti, utilizzando quello più restrittivo in ogni fase.

Introdotta in  
`v1.0`

Modelli supportati  
Tutti i modelli Amazon Nova

Come abilitare  
Imposta la variabile di `DEFAULT_TOP_K` ambiente durante la creazione del SageMaker modello.

Valore predefinito  
`-1`(disabilitato)

Valori validi  
Numero intero `-1` o maggiore. Usa `-1` per considerare tutti i token.

**Variabile d'ambiente**

```
"Environment": {
    "DEFAULT_TOP_K": "50"
}
```

**Nota**  
È possibile sovrascrivere questa impostazione predefinita in base alla richiesta includendo il `top_k` parametro nel corpo della richiesta.

## Numero massimo di nuovi token predefinito
<a name="nova-sagemaker-inference-container-feature-default-max-new-tokens"></a>

Imposta il numero massimo predefinito di token (parole o porzioni di parole) che il modello genera in una risposta. Questo valore si applica a tutte le richieste a meno che non venga sovrascritto. Utilizzalo per controllare la durata della risposta e gestire i costi sull'endpoint.

**Quando usarlo:** imposta questa opzione quando desideri imporre una lunghezza massima di risposta coerente per tutte le richieste. Ad esempio, impostala per attività a risposta breve o `256` `2048` per la generazione di contenuti più lunga. Il valore massimo consentito dipende dalla `CONTEXT_LENGTH` configurazione dell'endpoint, poiché i token di input più i token di output non possono superare la lunghezza del contesto.

Introdotta in  
`v1.0`

Modelli supportati  
Tutti i modelli Amazon Nova

Come abilitare  
Imposta la variabile di `DEFAULT_MAX_NEW_TOKENS` ambiente durante la creazione del SageMaker modello.

Valore predefinito  
Lunghezza massima del contesto del modello

Valori validi  
Numero intero `1` o superiore

**Variabile d'ambiente**

```
"Environment": {
    "DEFAULT_MAX_NEW_TOKENS": "512"
}
```

**Nota**  
È possibile sovrascrivere questa impostazione predefinita in base alla richiesta includendo il `max_completion_tokens` parametro `max_tokens` o nel corpo della richiesta. Il valore massimo consentito dipende dalla `CONTEXT_LENGTH` configurazione per l'endpoint.

## Logprobs predefiniti
<a name="nova-sagemaker-inference-container-feature-default-logprobs"></a>

Imposta il numero predefinito di probabilità di registro da restituire per ogni token generato. Una probabilità logaritmica è un punteggio numerico che indica la sicurezza del modello nella scelta di ogni parola. Se abilitata, la risposta include questi punteggi per ogni token di output, il che è utile per valutare l'affidabilità del modello, confrontare scelte di parole alternative ed eseguire il debug del comportamento di generazione.

**Quando utilizzarlo:** abilita logprobs quando è necessario valutare la sicurezza del modello nel suo output, ad esempio per segnalare le risposte con scarsa confidenza per la revisione umana o per confrontare la probabilità di diversi completamenti. L'abilitazione di logprobs può aumentare leggermente la latenza di risposta e la dimensione del payload di risposta.

Introdotta in  
`v1.0`

Modelli supportati  
Tutti i modelli Amazon Nova

Come abilitare  
Imposta la variabile di `DEFAULT_LOGPROBS` ambiente durante la creazione del SageMaker modello.

Valore predefinito  
Disabilitato

Valori validi  
Numero intero compreso tra `1` e `20` (incluso)

**Variabile d'ambiente**

```
"Environment": {
    "DEFAULT_LOGPROBS": "5"
}
```

**Nota**  
È possibile sovrascrivere questa impostazione predefinita in base alla richiesta includendo `top_logprobs` i parametri `logprobs` and nel corpo della richiesta. L'abilitazione di logprobs può aumentare leggermente la latenza di risposta.

## Decodifica speculativa Eagle3
<a name="nova-sagemaker-inference-container-feature-speculative-decoding"></a>

La decodifica speculativa di Eagle3 è una tecnica di ottimizzazione che accelera la generazione di testo. Funziona utilizzando un modello di bozza più piccolo e veloce per prevedere diversi token futuri, quindi confrontando tali previsioni con il modello principale in un unico passaggio. Quando le previsioni sono corrette, il modello genera in modo efficace più token nel tempo normalmente necessario per generarne uno. Il modello primario verifica sempre le bozze di token, quindi l'output finale è identico a quello che il modello principale produrrebbe da solo: cambia solo la velocità, non la qualità.

**Quando utilizzarla:** la decodifica speculativa di Eagle3 è abilitata di default e offre vantaggi alla maggior parte dei carichi di lavoro. Prendi in considerazione la possibilità di disattivarla solo se osservi un comportamento imprevisto o hai bisogno di isolare le caratteristiche prestazionali durante il debug.

Introdotta in  
`v1.0`. È stato aggiunto il supporto per la quantizzazione FP8 con decodifica speculativa Eagle3. `v1.4`

Modelli supportati  
Tutti i modelli Amazon Nova

Come abilitare  
La decodifica speculativa di Eagle3 è abilitata di default senza necessità di configurazione. Usa `DISABLE_SPECULATIVE_DECODING` per disabilitarla.

Valore predefinito  
`false`(La decodifica speculativa di Eagle3 è abilitata)

Valori validi  
`true`, `false`

**Variabile d'ambiente**

L'esempio seguente disabilita la decodifica speculativa di Eagle3:

```
"Environment": {
    "DISABLE_SPECULATIVE_DECODING": "true"
}
```

## Tipo di dati della cache KV
<a name="nova-sagemaker-inference-container-feature-kv-cache-dtype"></a>

Imposta il tipo di dati per la cache chiave-valore (KV) utilizzata durante l'inferenza. La cache KV memorizza la memoria del modello dei token precedenti in una conversazione, consentendogli di generare ogni nuovo token senza rielaborare l'intero input. Per sequenze lunghe, questa cache può consumare una notevole quantità di memoria GPU. L'impostazione della cache KV su un tipo di dati a bassa precisione come FP8 riduce l'utilizzo della memoria e può migliorare la velocità effettiva, a scapito di piccole differenze numeriche nell'output.

**Quando utilizzarla:** abilita la cache KV FP8 quando è necessario supportare lunghezze di contesto più lunghe o una maggiore concorrenza sull'istanza. Ciò è particolarmente utile sulle istanze GPU con memoria limitata. Verifica il tuo caso d'uso per verificare che la qualità dell'output soddisfi i tuoi requisiti, poiché una precisione inferiore può produrre risultati leggermente diversi.

Introdotta in  
`v1.3`

Modelli supportati  
Tutti i modelli Amazon Nova

Come abilitare  
Imposta la variabile di `KV_CACHE_DTYPE` ambiente durante la creazione del SageMaker modello.

Valore predefinito  
Uguale al tipo di dati del modello

Valori validi  
`fp8`

**Variabile d'ambiente**

```
"Environment": {
    "KV_CACHE_DTYPE": "fp8"
}
```

**Nota**  
La modifica del tipo di dati della cache KV può produrre output leggermente diversi rispetto alla precisione predefinita. Testa il tuo caso d'uso per verificare che la qualità dell'output soddisfi i tuoi requisiti.

## Quantizzazione
<a name="nova-sagemaker-inference-container-feature-quantization"></a>

Imposta il tipo di dati di quantizzazione per i pesi del modello. La quantizzazione comprime i pesi del modello in un formato a precisione inferiore (FP8 anziché la precisione più elevata predefinita), che riduce la quantità di memoria GPU richiesta dal modello. Ciò può migliorare la velocità di inferenza e consentire ai modelli più grandi di adattarsi a tipi di istanze più piccoli, con un impatto minimo sulla qualità dell'output.

**Quando utilizzarla: utilizzate** la quantizzazione FP8 quando desiderate ridurre l'utilizzo della memoria per supportare una maggiore concorrenza o adattare un modello a un tipo di istanza più piccolo. Tieni presente che alcune combinazioni di modelli e tipi di istanza richiedono automaticamente la quantizzazione FP8: vedi l'avviso di seguito.

Introdotta in  
`v1.3`

Modelli supportati  
Tutti i modelli Amazon Nova

Come abilitare  
Imposta la variabile di `QUANTIZATION_DTYPE` ambiente durante la creazione del SageMaker modello.

Valore predefinito  
Disabilitato. Tuttavia, la quantizzazione FP8 viene abilitata automaticamente per determinate combinazioni di modelli e tipi di istanza. Vedi la nota riportata di seguito.

Valori validi  
`fp8`

**Variabile d'ambiente**

```
"Environment": {
    "QUANTIZATION_DTYPE": "fp8"
}
```

**Importante**  
Le seguenti combinazioni di modelli e tipi di istanza richiedono la quantizzazione FP8. Per queste configurazioni, la quantizzazione è abilitata automaticamente e non può essere disabilitata o sostituita:  
Amazon Nova Lite su `ml.g6.12xlarge` o `ml.g6.24xlarge`
Nova 2 Lite attivo `ml.g6.48xlarge`
Per tutte le altre configurazioni, vedi [Modelli e istanze supportati](nova-model-sagemaker-inference.md#nova-sagemaker-inference-supported) per i dettagli.

## Numero di token speculativi
<a name="nova-sagemaker-inference-container-feature-num-speculative-tokens"></a>

Controlla il numero di token previsti dalla bozza del modello durante ogni fase di decodifica speculativa di Eagle3. Un valore più alto indica che la bozza del modello tenta di prevedere più token contemporaneamente, il che può migliorare la produttività quando le previsioni sono accurate. Se le previsioni del modello di bozza divergono spesso dal modello principale, un valore inferiore può essere più efficiente.

**Quando usarlo:** aumenta questo valore quando il carico di lavoro produce modelli di output prevedibili (ad esempio, dati strutturati o testo basato su modelli) in cui è probabile che il modello bozza indovini correttamente. Diminuiscilo per ottenere risultati creativi o altamente variabili laddove le previsioni sono meno affidabili.

Introdotta in  
`v1.4`

Modelli supportati  
Tutti i modelli Amazon Nova

Come abilitare  
Imposta la variabile di `NUM_SPECULATIVE_TOKENS` ambiente durante la creazione del SageMaker modello.

Valore predefinito  
`3`

Valori validi  
Numero intero compreso tra `1` e `10` (incluso)

**Variabile d'ambiente**

```
"Environment": {
    "NUM_SPECULATIVE_TOKENS": "5"
}
```

**Nota**  
Questa impostazione si applica solo quando la decodifica speculativa di Eagle3 è abilitata (è). `DISABLE_SPECULATIVE_DECODING` `false` Non ha effetto quando la decodifica speculativa è disabilitata o quando si utilizza la decodifica dei suffissi.

## Decodifica dei suffissi
<a name="nova-sagemaker-inference-container-feature-suffix-decoding"></a>

La decodifica dei suffissi è un metodo alternativo per accelerare la generazione di testo. Invece di utilizzare un modello di bozza separato (come fa Eagle3), la decodifica dei suffissi cerca modelli ripetuti nel testo che è già stato generato o nel prompt di input e riutilizza tali modelli per prevedere i token futuri. Questo approccio funziona bene quando è probabile che l'output contenga frasi ripetute, formati strutturati o contenuti che rispecchiano fedelmente l'input.

**Quando usarlo: utilizza** la decodifica dei suffissi per attività in cui l'output contiene schemi ripetitivi, come la generazione di dati strutturati, la compilazione di modelli o il riepilogo del contenuto che riutilizza frasi dalla fonte. Per la generazione generica in cui l'output è molto vario, il metodo Eagle3 predefinito offre in genere una velocità di trasmissione migliore.

Introdotta in  
`v1.4`

Modelli supportati  
Tutti i modelli Amazon Nova

Come abilitare  
Imposta la variabile di `SPECULATIVE_DECODING_METHOD` ambiente su `suffix` quando crei il SageMaker modello.

Valore predefinito  
`eagle3`

Valori validi  
`eagle3`, `suffix`

**Variabile d'ambiente**

```
"Environment": {
    "SPECULATIVE_DECODING_METHOD": "suffix"
}
```

**Nota**  
Per utilizzare la decodifica dei suffissi, `DISABLE_SPECULATIVE_DECODING` deve essere impostata su `false` (impostazione predefinita). L'impostazione `DISABLE_SPECULATIVE_DECODING` su `true` disabilita tutti i metodi di decodifica speculativa, inclusa la decodifica dei suffissi.