Sintesi delle funzionalità Temperatura predefinita Top-p predefinito Top-k predefinito Numero massimo di nuovi token predefinito Logprobs predefiniti Decodifica speculativa Eagle3 Tipo di dati della cache KV Quantizzazione Numero di token speculativi Decodifica dei suffissi

Caratteristiche del contenitore di inferenza

Il contenitore di SageMaker inferenza Amazon Nova include una serie di funzionalità che puoi abilitare per personalizzare il comportamento del modello durante l'inferenza. Ogni funzionalità viene introdotta in una versione specifica del contenitore e può richiedere l'attivazione di variabili di ambiente, parametri di richiesta o entrambi.

Questa pagina elenca le funzionalità disponibili nel contenitore di inferenza, descrive come abilitarle ciascuna e identifica la versione del contenitore in cui è stata introdotta la funzionalità. Utilizza questo riferimento per determinare quali funzionalità sono disponibili per la tua distribuzione e come configurarle.

Le funzionalità abilitate tramite variabili di ambiente vengono impostate al momento della creazione del SageMaker modello o della configurazione dell'endpoint. Includile nel Environment parametro della chiamata CreateModelAPI. Le funzionalità abilitate tramite i parametri della richiesta vengono impostate per ogni chiamata nel corpo della richiesta.

Nota

Usa sempre l'immagine del contenitore più recente per accedere a tutte le funzionalità disponibili. Il SM-Inference-latest tag attualmente punta av1.4.

Sintesi delle funzionalità

La tabella seguente fornisce un riferimento rapido di tutte le funzionalità supportate nel contenitore di SageMaker inferenza Amazon Nova.

Riepilogo delle funzionalità del contenitore di inferenza
Funzionalità	Come abilitare	Predefinita	Modelli supportati	Introdotta in
Temperatura predefinita	Variabile di ambiente	`1.0`	Tutti i modelli Amazon Nova	v1.0
Top-p predefinito	Variabile di ambiente	`1.0`	Tutti i modelli Amazon Nova	v1.0
Top-k predefinito	Variabile di ambiente	`-1`(disabilitato)	Tutti i modelli Amazon Nova	v1.0
Numero massimo di nuovi token predefinito	Variabile di ambiente	Lunghezza massima del contesto del modello	Tutti i modelli Amazon Nova	v1.0
Logprobs predefiniti	Variabile di ambiente	Disabilitato	Tutti i modelli Amazon Nova	v1.0
Decodifica speculativa Eagle3	Abilitata per default	Abilitato	Tutti i modelli Amazon Nova	v1.0
Tipo di dati della cache KV	Variabile di ambiente	Uguale al tipo di dati del modello	Tutti i modelli Amazon Nova	v1.3
Quantizzazione	Variabile di ambiente	Disabilitato*	Tutti i modelli Amazon Nova	v1.3
Numero di token speculativi	Variabile di ambiente	`3`	Tutti i modelli Amazon Nova	v1.4
Decodifica dei suffissi	Variabile di ambiente	Disabilitato	Tutti i modelli Amazon Nova	v1.4

Importante

* La quantizzazione FP8 è abilitata automaticamente e non può essere disabilitata per le seguenti combinazioni di modelli e tipi di istanza:

Amazon Nova Lite su ml.g6.12xlarge o ml.g6.24xlarge
Nova 2 Lite attivo ml.g6.48xlarge

Per queste configurazioni, non è necessario impostareQUANTIZATION_DTYPE. Per informazioni dettagliate, vedi Quantizzazione.

Temperatura predefinita

Imposta la temperatura di campionamento predefinita per tutte le richieste di inferenza inviate all'endpoint. La temperatura controlla la casualità o la prevedibilità dell'output del modello. Un valore di 0 fa sì che il modello scelga sempre la parola successiva più probabile, producendo un output coerente e ripetibile. Valori più alti (fino a2) rendono il modello più propenso a scegliere parole meno probabili, producendo risposte più creative e varie.

Quando usarlo: abbassa la temperatura (ad esempio, 0.1 to0.3) per attività che richiedono risposte concrete e coerenti, come la classificazione o l'estrazione dei dati. Utilizzalo (ad esempio, per1.0) 0.7 per attività creative come la scrittura di storie o il brainstorming. La temperatura funziona insieme a top-p e top-k: tutti e tre controllano il modo in cui il modello seleziona i token e puoi combinarli per ottimizzare il comportamento di output.

Introdotta in: v1.0
Modelli supportati: Tutti i modelli Amazon Nova
Come abilitare: Imposta la variabile di DEFAULT_TEMPERATURE ambiente durante la creazione del SageMaker modello.
Valore predefinito: 1.0
Valori validi: Fluttua tra 0 e 2 (incluso)

Variabile d'ambiente


"Environment": {
    "DEFAULT_TEMPERATURE": "0.7"
}

Nota

È possibile sovrascrivere questa impostazione predefinita in base alla richiesta includendo il temperature parametro nel corpo della richiesta.

Top-p predefinito

Imposta il valore top-p predefinito per tutte le richieste di inferenza. Top-p controlla la diversità dell'output limitando le scelte del modello a un sottoinsieme delle parole più probabili. In particolare, il modello ordina tutte le possibili parole successive in base alla probabilità e considera solo il gruppo più piccolo la cui probabilità combinata raggiunge il valore massimo p. Ad esempio, un massimo di 0.9 significa che il modello considera solo le parole che insieme rappresentano il 90% della probabilità, ignorando le restanti opzioni improbabili.

Quando utilizzarlo: utilizzate un valore top-p più basso (ad esempio0.5) per fare in modo che il modello si attenga a parole ad alta confidenza, producendo risultati più mirati. Utilizzate un valore più alto (ad esempio,0.95) per consentire una maggiore varietà. Top-p viene spesso utilizzato come alternativa alla temperatura: entrambi controllano la diversità di uscita, ma top-p si adatta dinamicamente in base alla fiducia del modello in ogni fase. È possibile utilizzarli entrambi insieme, nel qual caso il modello applica il vincolo più restrittivo in ogni fase.

Introdotta in: v1.0
Modelli supportati: Tutti i modelli Amazon Nova
Come abilitare: Imposta la variabile di DEFAULT_TOP_P ambiente durante la creazione del SageMaker modello.
Valore predefinito: 1.0
Valori validi: Fluttua tra 1e-10 e 1 (incluso)

Variabile d'ambiente


"Environment": {
    "DEFAULT_TOP_P": "0.9"
}

Nota

È possibile sovrascrivere questa impostazione predefinita in base alla richiesta includendo il top_p parametro nel corpo della richiesta.

Top-k predefinito

Imposta il valore top-k predefinito per tutte le richieste di inferenza. Top-k limita le scelte del modello a un numero fisso delle parole successive più probabili. Ad esempio, una top k di 50 significa che il modello considera solo le 50 parole più probabili in ogni fase, indipendentemente dalle probabilità individuali. Il valore di -1 disabilita questo limite, permettendo al modello di prendere in considerazione tutte le parole possibili.

Quando usarlo: Usa top-k quando desideri un limite massimo al numero di scelte di parole prese in considerazione dal modello. Valori più bassi (ad esempio10) producono un output più prevedibile, mentre valori più alti consentono una maggiore varietà. Top-k può essere combinato con temperatura e top-p: quando sono attivi più controlli di campionamento, il modello li applica tutti, utilizzando quello più restrittivo in ogni fase.

Introdotta in: v1.0
Modelli supportati: Tutti i modelli Amazon Nova
Come abilitare: Imposta la variabile di DEFAULT_TOP_K ambiente durante la creazione del SageMaker modello.
Valore predefinito: -1(disabilitato)
Valori validi: Numero intero -1 o maggiore. Usa -1 per considerare tutti i token.

Variabile d'ambiente


"Environment": {
    "DEFAULT_TOP_K": "50"
}

Nota

È possibile sovrascrivere questa impostazione predefinita in base alla richiesta includendo il top_k parametro nel corpo della richiesta.

Numero massimo di nuovi token predefinito

Imposta il numero massimo predefinito di token (parole o porzioni di parole) che il modello genera in una risposta. Questo valore si applica a tutte le richieste a meno che non venga sovrascritto. Utilizzalo per controllare la durata della risposta e gestire i costi sull'endpoint.

Quando usarlo: imposta questa opzione quando desideri imporre una lunghezza massima di risposta coerente per tutte le richieste. Ad esempio, impostala per attività a risposta breve o 256 2048 per la generazione di contenuti più lunga. Il valore massimo consentito dipende dalla CONTEXT_LENGTH configurazione dell'endpoint, poiché i token di input più i token di output non possono superare la lunghezza del contesto.

Introdotta in: v1.0
Modelli supportati: Tutti i modelli Amazon Nova
Come abilitare: Imposta la variabile di DEFAULT_MAX_NEW_TOKENS ambiente durante la creazione del SageMaker modello.
Valore predefinito: Lunghezza massima del contesto del modello
Valori validi: Numero intero 1 o superiore

Variabile d'ambiente


"Environment": {
    "DEFAULT_MAX_NEW_TOKENS": "512"
}

Nota

È possibile sovrascrivere questa impostazione predefinita in base alla richiesta includendo il max_completion_tokens parametro max_tokens o nel corpo della richiesta. Il valore massimo consentito dipende dalla CONTEXT_LENGTH configurazione per l'endpoint.

Logprobs predefiniti

Imposta il numero predefinito di probabilità di registro da restituire per ogni token generato. Una probabilità logaritmica è un punteggio numerico che indica la sicurezza del modello nella scelta di ogni parola. Se abilitata, la risposta include questi punteggi per ogni token di output, il che è utile per valutare l'affidabilità del modello, confrontare scelte di parole alternative ed eseguire il debug del comportamento di generazione.

Quando utilizzarlo: abilita logprobs quando è necessario valutare la sicurezza del modello nel suo output, ad esempio per segnalare le risposte con scarsa confidenza per la revisione umana o per confrontare la probabilità di diversi completamenti. L'abilitazione di logprobs può aumentare leggermente la latenza di risposta e la dimensione del payload di risposta.

Introdotta in: v1.0
Modelli supportati: Tutti i modelli Amazon Nova
Come abilitare: Imposta la variabile di DEFAULT_LOGPROBS ambiente durante la creazione del SageMaker modello.
Valore predefinito: Disabilitato
Valori validi: Numero intero compreso tra 1 e 20 (incluso)

Variabile d'ambiente


"Environment": {
    "DEFAULT_LOGPROBS": "5"
}

Nota

È possibile sovrascrivere questa impostazione predefinita in base alla richiesta includendo top_logprobs i parametri logprobs and nel corpo della richiesta. L'abilitazione di logprobs può aumentare leggermente la latenza di risposta.

Decodifica speculativa Eagle3

La decodifica speculativa di Eagle3 è una tecnica di ottimizzazione che accelera la generazione di testo. Funziona utilizzando un modello di bozza più piccolo e veloce per prevedere diversi token futuri, quindi confrontando tali previsioni con il modello principale in un unico passaggio. Quando le previsioni sono corrette, il modello genera in modo efficace più token nel tempo normalmente necessario per generarne uno. Il modello primario verifica sempre le bozze di token, quindi l'output finale è identico a quello che il modello principale produrrebbe da solo: cambia solo la velocità, non la qualità.

Quando utilizzarla: la decodifica speculativa di Eagle3 è abilitata di default e offre vantaggi alla maggior parte dei carichi di lavoro. Prendi in considerazione la possibilità di disattivarla solo se osservi un comportamento imprevisto o hai bisogno di isolare le caratteristiche prestazionali durante il debug.

Introdotta in: v1.0. È stato aggiunto il supporto per la quantizzazione FP8 con decodifica speculativa Eagle3. v1.4
Modelli supportati: Tutti i modelli Amazon Nova
Come abilitare: La decodifica speculativa di Eagle3 è abilitata di default senza necessità di configurazione. Usa DISABLE_SPECULATIVE_DECODING per disabilitarla.
Valore predefinito: false(La decodifica speculativa di Eagle3 è abilitata)
Valori validi: true, false

Variabile d'ambiente

L'esempio seguente disabilita la decodifica speculativa di Eagle3:


"Environment": {
    "DISABLE_SPECULATIVE_DECODING": "true"
}

Tipo di dati della cache KV

Imposta il tipo di dati per la cache chiave-valore (KV) utilizzata durante l'inferenza. La cache KV memorizza la memoria del modello dei token precedenti in una conversazione, consentendogli di generare ogni nuovo token senza rielaborare l'intero input. Per sequenze lunghe, questa cache può consumare una notevole quantità di memoria GPU. L'impostazione della cache KV su un tipo di dati a bassa precisione come FP8 riduce l'utilizzo della memoria e può migliorare la velocità effettiva, a scapito di piccole differenze numeriche nell'output.

Quando utilizzarla: abilita la cache KV FP8 quando è necessario supportare lunghezze di contesto più lunghe o una maggiore concorrenza sull'istanza. Ciò è particolarmente utile sulle istanze GPU con memoria limitata. Verifica il tuo caso d'uso per verificare che la qualità dell'output soddisfi i tuoi requisiti, poiché una precisione inferiore può produrre risultati leggermente diversi.

Introdotta in: v1.3
Modelli supportati: Tutti i modelli Amazon Nova
Come abilitare: Imposta la variabile di KV_CACHE_DTYPE ambiente durante la creazione del SageMaker modello.
Valore predefinito: Uguale al tipo di dati del modello
Valori validi: fp8

Variabile d'ambiente


"Environment": {
    "KV_CACHE_DTYPE": "fp8"
}

Nota

La modifica del tipo di dati della cache KV può produrre output leggermente diversi rispetto alla precisione predefinita. Testa il tuo caso d'uso per verificare che la qualità dell'output soddisfi i tuoi requisiti.

Quantizzazione

Imposta il tipo di dati di quantizzazione per i pesi del modello. La quantizzazione comprime i pesi del modello in un formato a precisione inferiore (FP8 anziché la precisione più elevata predefinita), che riduce la quantità di memoria GPU richiesta dal modello. Ciò può migliorare la velocità di inferenza e consentire ai modelli più grandi di adattarsi a tipi di istanze più piccoli, con un impatto minimo sulla qualità dell'output.

Quando utilizzarla: utilizzate la quantizzazione FP8 quando desiderate ridurre l'utilizzo della memoria per supportare una maggiore concorrenza o adattare un modello a un tipo di istanza più piccolo. Tieni presente che alcune combinazioni di modelli e tipi di istanza richiedono automaticamente la quantizzazione FP8: vedi l'avviso di seguito.

Introdotta in: v1.3
Modelli supportati: Tutti i modelli Amazon Nova
Come abilitare: Imposta la variabile di QUANTIZATION_DTYPE ambiente durante la creazione del SageMaker modello.
Valore predefinito: Disabilitato. Tuttavia, la quantizzazione FP8 viene abilitata automaticamente per determinate combinazioni di modelli e tipi di istanza. Vedi la nota riportata di seguito.
Valori validi: fp8

Variabile d'ambiente


"Environment": {
    "QUANTIZATION_DTYPE": "fp8"
}

Importante

Le seguenti combinazioni di modelli e tipi di istanza richiedono la quantizzazione FP8. Per queste configurazioni, la quantizzazione è abilitata automaticamente e non può essere disabilitata o sostituita:

Amazon Nova Lite su ml.g6.12xlarge o ml.g6.24xlarge
Nova 2 Lite attivo ml.g6.48xlarge

Per tutte le altre configurazioni, vedi Modelli e istanze supportati per i dettagli.

Numero di token speculativi

Controlla il numero di token previsti dalla bozza del modello durante ogni fase di decodifica speculativa di Eagle3. Un valore più alto indica che la bozza del modello tenta di prevedere più token contemporaneamente, il che può migliorare la produttività quando le previsioni sono accurate. Se le previsioni del modello di bozza divergono spesso dal modello principale, un valore inferiore può essere più efficiente.

Quando usarlo: aumenta questo valore quando il carico di lavoro produce modelli di output prevedibili (ad esempio, dati strutturati o testo basato su modelli) in cui è probabile che il modello bozza indovini correttamente. Diminuiscilo per ottenere risultati creativi o altamente variabili laddove le previsioni sono meno affidabili.

Introdotta in: v1.4
Modelli supportati: Tutti i modelli Amazon Nova
Come abilitare: Imposta la variabile di NUM_SPECULATIVE_TOKENS ambiente durante la creazione del SageMaker modello.
Valore predefinito: 3
Valori validi: Numero intero compreso tra 1 e 10 (incluso)

Variabile d'ambiente


"Environment": {
    "NUM_SPECULATIVE_TOKENS": "5"
}

Nota

Questa impostazione si applica solo quando la decodifica speculativa di Eagle3 è abilitata (è). DISABLE_SPECULATIVE_DECODING false Non ha effetto quando la decodifica speculativa è disabilitata o quando si utilizza la decodifica dei suffissi.

Decodifica dei suffissi

La decodifica dei suffissi è un metodo alternativo per accelerare la generazione di testo. Invece di utilizzare un modello di bozza separato (come fa Eagle3), la decodifica dei suffissi cerca modelli ripetuti nel testo che è già stato generato o nel prompt di input e riutilizza tali modelli per prevedere i token futuri. Questo approccio funziona bene quando è probabile che l'output contenga frasi ripetute, formati strutturati o contenuti che rispecchiano fedelmente l'input.

Quando usarlo: utilizza la decodifica dei suffissi per attività in cui l'output contiene schemi ripetitivi, come la generazione di dati strutturati, la compilazione di modelli o il riepilogo del contenuto che riutilizza frasi dalla fonte. Per la generazione generica in cui l'output è molto vario, il metodo Eagle3 predefinito offre in genere una velocità di trasmissione migliore.

Introdotta in: v1.4
Modelli supportati: Tutti i modelli Amazon Nova
Come abilitare: Imposta la variabile di SPECULATIVE_DECODING_METHOD ambiente su suffix quando crei il SageMaker modello.
Valore predefinito: eagle3
Valori validi: eagle3, suffix

Variabile d'ambiente


"Environment": {
    "SPECULATIVE_DECODING_METHOD": "suffix"
}

Nota

Per utilizzare la decodifica dei suffissi, DISABLE_SPECULATIVE_DECODING deve essere impostata su false (impostazione predefinita). L'impostazione DISABLE_SPECULATIVE_DECODING su true disabilita tutti i metodi di decodifica speculativa, inclusa la decodifica dei suffissi.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Nozioni di base

Guida di riferimento alle API