Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Caratteristiche del contenitore di inferenza
Il contenitore di SageMaker inferenza Amazon Nova include una serie di funzionalità che puoi abilitare per personalizzare il comportamento del modello durante l'inferenza. Ogni funzionalità viene introdotta in una versione specifica del contenitore e può richiedere l'attivazione di variabili di ambiente, parametri di richiesta o entrambi.
Questa pagina elenca le funzionalità disponibili nel contenitore di inferenza, descrive come abilitarle ciascuna e identifica la versione del contenitore in cui è stata introdotta la funzionalità. Utilizza questo riferimento per determinare quali funzionalità sono disponibili per la tua distribuzione e come configurarle.
Le funzionalità abilitate tramite variabili di ambiente vengono impostate al momento della creazione del SageMaker modello o della configurazione dell'endpoint. Includile nel Environment parametro della chiamata CreateModelAPI. Le funzionalità abilitate tramite i parametri della richiesta vengono impostate per ogni chiamata nel corpo della richiesta.
Nota
Usa sempre l'immagine del contenitore più recente per accedere a tutte le funzionalità disponibili. Il SM-Inference-latest tag attualmente punta av1.4.
Sintesi delle funzionalità
La tabella seguente fornisce un riferimento rapido di tutte le funzionalità supportate nel contenitore di SageMaker inferenza Amazon Nova.
| Funzionalità | Come abilitare | Predefinita | Modelli supportati | Introdotta in |
|---|---|---|---|---|
| Temperatura predefinita | Variabile di ambiente | 1.0 |
Tutti i modelli Amazon Nova | v1.0 |
| Top-p predefinito | Variabile di ambiente | 1.0 |
Tutti i modelli Amazon Nova | v1.0 |
| Top-k predefinito | Variabile di ambiente | -1(disabilitato) |
Tutti i modelli Amazon Nova | v1.0 |
| Numero massimo di nuovi token predefinito | Variabile di ambiente | Lunghezza massima del contesto del modello | Tutti i modelli Amazon Nova | v1.0 |
| Logprobs predefiniti | Variabile di ambiente | Disabilitato | Tutti i modelli Amazon Nova | v1.0 |
| Decodifica speculativa Eagle3 | Abilitata per default | Abilitato | Tutti i modelli Amazon Nova | v1.0 |
| Tipo di dati della cache KV | Variabile di ambiente | Uguale al tipo di dati del modello | Tutti i modelli Amazon Nova | v1.3 |
| Quantizzazione | Variabile di ambiente | Disabilitato* | Tutti i modelli Amazon Nova | v1.3 |
| Numero di token speculativi | Variabile di ambiente | 3 |
Tutti i modelli Amazon Nova | v1.4 |
| Decodifica dei suffissi | Variabile di ambiente | Disabilitato | Tutti i modelli Amazon Nova | v1.4 |
Importante
* La quantizzazione FP8 è abilitata automaticamente e non può essere disabilitata per le seguenti combinazioni di modelli e tipi di istanza:
-
Amazon Nova Lite su
ml.g6.12xlargeoml.g6.24xlarge -
Nova 2 Lite attivo
ml.g6.48xlarge
Per queste configurazioni, non è necessario impostareQUANTIZATION_DTYPE. Per informazioni dettagliate, vedi Quantizzazione.
Temperatura predefinita
Imposta la temperatura di campionamento predefinita per tutte le richieste di inferenza inviate all'endpoint. La temperatura controlla la casualità o la prevedibilità dell'output del modello. Un valore di 0 fa sì che il modello scelga sempre la parola successiva più probabile, producendo un output coerente e ripetibile. Valori più alti (fino a2) rendono il modello più propenso a scegliere parole meno probabili, producendo risposte più creative e varie.
Quando usarlo: abbassa la temperatura (ad esempio, 0.1 to0.3) per attività che richiedono risposte concrete e coerenti, come la classificazione o l'estrazione dei dati. Utilizzalo (ad esempio, per1.0) 0.7 per attività creative come la scrittura di storie o il brainstorming. La temperatura funziona insieme a top-p e top-k: tutti e tre controllano il modo in cui il modello seleziona i token e puoi combinarli per ottimizzare il comportamento di output.
- Introdotta in
v1.0- Modelli supportati
Tutti i modelli Amazon Nova
- Come abilitare
-
Imposta la variabile di
DEFAULT_TEMPERATUREambiente durante la creazione del SageMaker modello. - Valore predefinito
1.0- Valori validi
Fluttua tra
0e2(incluso)
Variabile d'ambiente
"Environment": { "DEFAULT_TEMPERATURE": "0.7" }
Nota
È possibile sovrascrivere questa impostazione predefinita in base alla richiesta includendo il temperature parametro nel corpo della richiesta.
Top-p predefinito
Imposta il valore top-p predefinito per tutte le richieste di inferenza. Top-p controlla la diversità dell'output limitando le scelte del modello a un sottoinsieme delle parole più probabili. In particolare, il modello ordina tutte le possibili parole successive in base alla probabilità e considera solo il gruppo più piccolo la cui probabilità combinata raggiunge il valore massimo p. Ad esempio, un massimo di 0.9 significa che il modello considera solo le parole che insieme rappresentano il 90% della probabilità, ignorando le restanti opzioni improbabili.
Quando utilizzarlo: utilizzate un valore top-p più basso (ad esempio0.5) per fare in modo che il modello si attenga a parole ad alta confidenza, producendo risultati più mirati. Utilizzate un valore più alto (ad esempio,0.95) per consentire una maggiore varietà. Top-p viene spesso utilizzato come alternativa alla temperatura: entrambi controllano la diversità di uscita, ma top-p si adatta dinamicamente in base alla fiducia del modello in ogni fase. È possibile utilizzarli entrambi insieme, nel qual caso il modello applica il vincolo più restrittivo in ogni fase.
- Introdotta in
v1.0- Modelli supportati
Tutti i modelli Amazon Nova
- Come abilitare
-
Imposta la variabile di
DEFAULT_TOP_Pambiente durante la creazione del SageMaker modello. - Valore predefinito
1.0- Valori validi
Fluttua tra
1e-10e1(incluso)
Variabile d'ambiente
"Environment": { "DEFAULT_TOP_P": "0.9" }
Nota
È possibile sovrascrivere questa impostazione predefinita in base alla richiesta includendo il top_p parametro nel corpo della richiesta.
Top-k predefinito
Imposta il valore top-k predefinito per tutte le richieste di inferenza. Top-k limita le scelte del modello a un numero fisso delle parole successive più probabili. Ad esempio, una top k di 50 significa che il modello considera solo le 50 parole più probabili in ogni fase, indipendentemente dalle probabilità individuali. Il valore di -1 disabilita questo limite, permettendo al modello di prendere in considerazione tutte le parole possibili.
Quando usarlo: Usa top-k quando desideri un limite massimo al numero di scelte di parole prese in considerazione dal modello. Valori più bassi (ad esempio10) producono un output più prevedibile, mentre valori più alti consentono una maggiore varietà. Top-k può essere combinato con temperatura e top-p: quando sono attivi più controlli di campionamento, il modello li applica tutti, utilizzando quello più restrittivo in ogni fase.
- Introdotta in
v1.0- Modelli supportati
Tutti i modelli Amazon Nova
- Come abilitare
-
Imposta la variabile di
DEFAULT_TOP_Kambiente durante la creazione del SageMaker modello. - Valore predefinito
-1(disabilitato)- Valori validi
Numero intero
-1o maggiore. Usa-1per considerare tutti i token.
Variabile d'ambiente
"Environment": { "DEFAULT_TOP_K": "50" }
Nota
È possibile sovrascrivere questa impostazione predefinita in base alla richiesta includendo il top_k parametro nel corpo della richiesta.
Numero massimo di nuovi token predefinito
Imposta il numero massimo predefinito di token (parole o porzioni di parole) che il modello genera in una risposta. Questo valore si applica a tutte le richieste a meno che non venga sovrascritto. Utilizzalo per controllare la durata della risposta e gestire i costi sull'endpoint.
Quando usarlo: imposta questa opzione quando desideri imporre una lunghezza massima di risposta coerente per tutte le richieste. Ad esempio, impostala per attività a risposta breve o 256 2048 per la generazione di contenuti più lunga. Il valore massimo consentito dipende dalla CONTEXT_LENGTH configurazione dell'endpoint, poiché i token di input più i token di output non possono superare la lunghezza del contesto.
- Introdotta in
v1.0- Modelli supportati
Tutti i modelli Amazon Nova
- Come abilitare
-
Imposta la variabile di
DEFAULT_MAX_NEW_TOKENSambiente durante la creazione del SageMaker modello. - Valore predefinito
Lunghezza massima del contesto del modello
- Valori validi
Numero intero
1o superiore
Variabile d'ambiente
"Environment": { "DEFAULT_MAX_NEW_TOKENS": "512" }
Nota
È possibile sovrascrivere questa impostazione predefinita in base alla richiesta includendo il max_completion_tokens parametro max_tokens o nel corpo della richiesta. Il valore massimo consentito dipende dalla CONTEXT_LENGTH configurazione per l'endpoint.
Logprobs predefiniti
Imposta il numero predefinito di probabilità di registro da restituire per ogni token generato. Una probabilità logaritmica è un punteggio numerico che indica la sicurezza del modello nella scelta di ogni parola. Se abilitata, la risposta include questi punteggi per ogni token di output, il che è utile per valutare l'affidabilità del modello, confrontare scelte di parole alternative ed eseguire il debug del comportamento di generazione.
Quando utilizzarlo: abilita logprobs quando è necessario valutare la sicurezza del modello nel suo output, ad esempio per segnalare le risposte con scarsa confidenza per la revisione umana o per confrontare la probabilità di diversi completamenti. L'abilitazione di logprobs può aumentare leggermente la latenza di risposta e la dimensione del payload di risposta.
- Introdotta in
v1.0- Modelli supportati
Tutti i modelli Amazon Nova
- Come abilitare
-
Imposta la variabile di
DEFAULT_LOGPROBSambiente durante la creazione del SageMaker modello. - Valore predefinito
Disabilitato
- Valori validi
Numero intero compreso tra
1e20(incluso)
Variabile d'ambiente
"Environment": { "DEFAULT_LOGPROBS": "5" }
Nota
È possibile sovrascrivere questa impostazione predefinita in base alla richiesta includendo top_logprobs i parametri logprobs and nel corpo della richiesta. L'abilitazione di logprobs può aumentare leggermente la latenza di risposta.
Decodifica speculativa Eagle3
La decodifica speculativa di Eagle3 è una tecnica di ottimizzazione che accelera la generazione di testo. Funziona utilizzando un modello di bozza più piccolo e veloce per prevedere diversi token futuri, quindi confrontando tali previsioni con il modello principale in un unico passaggio. Quando le previsioni sono corrette, il modello genera in modo efficace più token nel tempo normalmente necessario per generarne uno. Il modello primario verifica sempre le bozze di token, quindi l'output finale è identico a quello che il modello principale produrrebbe da solo: cambia solo la velocità, non la qualità.
Quando utilizzarla: la decodifica speculativa di Eagle3 è abilitata di default e offre vantaggi alla maggior parte dei carichi di lavoro. Prendi in considerazione la possibilità di disattivarla solo se osservi un comportamento imprevisto o hai bisogno di isolare le caratteristiche prestazionali durante il debug.
- Introdotta in
v1.0. È stato aggiunto il supporto per la quantizzazione FP8 con decodifica speculativa Eagle3.v1.4- Modelli supportati
Tutti i modelli Amazon Nova
- Come abilitare
-
La decodifica speculativa di Eagle3 è abilitata di default senza necessità di configurazione. Usa
DISABLE_SPECULATIVE_DECODINGper disabilitarla. - Valore predefinito
false(La decodifica speculativa di Eagle3 è abilitata)- Valori validi
true,false
Variabile d'ambiente
L'esempio seguente disabilita la decodifica speculativa di Eagle3:
"Environment": { "DISABLE_SPECULATIVE_DECODING": "true" }
Tipo di dati della cache KV
Imposta il tipo di dati per la cache chiave-valore (KV) utilizzata durante l'inferenza. La cache KV memorizza la memoria del modello dei token precedenti in una conversazione, consentendogli di generare ogni nuovo token senza rielaborare l'intero input. Per sequenze lunghe, questa cache può consumare una notevole quantità di memoria GPU. L'impostazione della cache KV su un tipo di dati a bassa precisione come FP8 riduce l'utilizzo della memoria e può migliorare la velocità effettiva, a scapito di piccole differenze numeriche nell'output.
Quando utilizzarla: abilita la cache KV FP8 quando è necessario supportare lunghezze di contesto più lunghe o una maggiore concorrenza sull'istanza. Ciò è particolarmente utile sulle istanze GPU con memoria limitata. Verifica il tuo caso d'uso per verificare che la qualità dell'output soddisfi i tuoi requisiti, poiché una precisione inferiore può produrre risultati leggermente diversi.
- Introdotta in
v1.3- Modelli supportati
Tutti i modelli Amazon Nova
- Come abilitare
-
Imposta la variabile di
KV_CACHE_DTYPEambiente durante la creazione del SageMaker modello. - Valore predefinito
Uguale al tipo di dati del modello
- Valori validi
fp8
Variabile d'ambiente
"Environment": { "KV_CACHE_DTYPE": "fp8" }
Nota
La modifica del tipo di dati della cache KV può produrre output leggermente diversi rispetto alla precisione predefinita. Testa il tuo caso d'uso per verificare che la qualità dell'output soddisfi i tuoi requisiti.
Quantizzazione
Imposta il tipo di dati di quantizzazione per i pesi del modello. La quantizzazione comprime i pesi del modello in un formato a precisione inferiore (FP8 anziché la precisione più elevata predefinita), che riduce la quantità di memoria GPU richiesta dal modello. Ciò può migliorare la velocità di inferenza e consentire ai modelli più grandi di adattarsi a tipi di istanze più piccoli, con un impatto minimo sulla qualità dell'output.
Quando utilizzarla: utilizzate la quantizzazione FP8 quando desiderate ridurre l'utilizzo della memoria per supportare una maggiore concorrenza o adattare un modello a un tipo di istanza più piccolo. Tieni presente che alcune combinazioni di modelli e tipi di istanza richiedono automaticamente la quantizzazione FP8: vedi l'avviso di seguito.
- Introdotta in
v1.3- Modelli supportati
Tutti i modelli Amazon Nova
- Come abilitare
-
Imposta la variabile di
QUANTIZATION_DTYPEambiente durante la creazione del SageMaker modello. - Valore predefinito
Disabilitato. Tuttavia, la quantizzazione FP8 viene abilitata automaticamente per determinate combinazioni di modelli e tipi di istanza. Vedi la nota riportata di seguito.
- Valori validi
fp8
Variabile d'ambiente
"Environment": { "QUANTIZATION_DTYPE": "fp8" }
Importante
Le seguenti combinazioni di modelli e tipi di istanza richiedono la quantizzazione FP8. Per queste configurazioni, la quantizzazione è abilitata automaticamente e non può essere disabilitata o sostituita:
-
Amazon Nova Lite su
ml.g6.12xlargeoml.g6.24xlarge -
Nova 2 Lite attivo
ml.g6.48xlarge
Per tutte le altre configurazioni, vedi Modelli e istanze supportati per i dettagli.
Numero di token speculativi
Controlla il numero di token previsti dalla bozza del modello durante ogni fase di decodifica speculativa di Eagle3. Un valore più alto indica che la bozza del modello tenta di prevedere più token contemporaneamente, il che può migliorare la produttività quando le previsioni sono accurate. Se le previsioni del modello di bozza divergono spesso dal modello principale, un valore inferiore può essere più efficiente.
Quando usarlo: aumenta questo valore quando il carico di lavoro produce modelli di output prevedibili (ad esempio, dati strutturati o testo basato su modelli) in cui è probabile che il modello bozza indovini correttamente. Diminuiscilo per ottenere risultati creativi o altamente variabili laddove le previsioni sono meno affidabili.
- Introdotta in
v1.4- Modelli supportati
Tutti i modelli Amazon Nova
- Come abilitare
-
Imposta la variabile di
NUM_SPECULATIVE_TOKENSambiente durante la creazione del SageMaker modello. - Valore predefinito
3- Valori validi
Numero intero compreso tra
1e10(incluso)
Variabile d'ambiente
"Environment": { "NUM_SPECULATIVE_TOKENS": "5" }
Nota
Questa impostazione si applica solo quando la decodifica speculativa di Eagle3 è abilitata (è). DISABLE_SPECULATIVE_DECODING false Non ha effetto quando la decodifica speculativa è disabilitata o quando si utilizza la decodifica dei suffissi.
Decodifica dei suffissi
La decodifica dei suffissi è un metodo alternativo per accelerare la generazione di testo. Invece di utilizzare un modello di bozza separato (come fa Eagle3), la decodifica dei suffissi cerca modelli ripetuti nel testo che è già stato generato o nel prompt di input e riutilizza tali modelli per prevedere i token futuri. Questo approccio funziona bene quando è probabile che l'output contenga frasi ripetute, formati strutturati o contenuti che rispecchiano fedelmente l'input.
Quando usarlo: utilizza la decodifica dei suffissi per attività in cui l'output contiene schemi ripetitivi, come la generazione di dati strutturati, la compilazione di modelli o il riepilogo del contenuto che riutilizza frasi dalla fonte. Per la generazione generica in cui l'output è molto vario, il metodo Eagle3 predefinito offre in genere una velocità di trasmissione migliore.
- Introdotta in
v1.4- Modelli supportati
Tutti i modelli Amazon Nova
- Come abilitare
-
Imposta la variabile di
SPECULATIVE_DECODING_METHODambiente susuffixquando crei il SageMaker modello. - Valore predefinito
eagle3- Valori validi
eagle3,suffix
Variabile d'ambiente
"Environment": { "SPECULATIVE_DECODING_METHOD": "suffix" }
Nota
Per utilizzare la decodifica dei suffissi, DISABLE_SPECULATIVE_DECODING deve essere impostata su false (impostazione predefinita). L'impostazione DISABLE_SPECULATIVE_DECODING su true disabilita tutti i metodi di decodifica speculativa, inclusa la decodifica dei suffissi.