Influenza la generazione della risposta con parametri di inferenza

Modalità Focus

Influenza la generazione della risposta con parametri di inferenza - Amazon Bedrock

Quando si esegue l'inferenza del modello, è possibile regolare i parametri di inferenza per influenzare la risposta del modello. I parametri di inferenza possono modificare il pool di possibili output che il modello considera durante la generazione oppure possono limitare la risposta finale.

I valori e gli intervalli predefiniti dei parametri di inferenza dipendono dal modello. Per ulteriori informazioni sui parametri di inferenza per diversi modelli, vedere. Parametri della richiesta di inferenza e campi di risposta per i modelli di base

Le seguenti categorie di parametri si trovano comunemente in diversi modelli:

Casualità e diversità

Per ogni sequenza data, un modello determina una distribuzione di probabilità delle opzioni per il token successivo nella sequenza. Per generare ogni token in un output, il modello crea campioni da questa distribuzione. La randomizzazione e la diversità si riferiscono alla quantità di variazione nella risposta di un modello. Puoi controllare questi fattori limitando o adattando la distribuzione. I modelli di fondazione in genere supportano i seguenti parametri per controllare la casualità e la diversità nella risposta.

Temperatura: influisce sulla forma della distribuzione di probabilità per l'output previsto e sulla possibilità che il modello selezioni output a bassa probabilità.
- Scegli un valore più basso per influenzare il modello nella selezione di output con maggiore probabilità.
- Scegli un valore più alto per influenzare il modello nella selezione di output con minore probabilità.
In termini tecnici, la temperatura modula la funzione di massa di probabilità per il token successivo. Una temperatura più bassa rende più ripida la funzione e porta a risposte più deterministiche, mentre una temperatura più alta appiattisce la funzione e porta a risposte più casuali.
Top K: il numero di candidati più probabili che il modello considera per il token successivo.
- Scegli un valore più basso per ridurre le dimensioni del pool e limitare le opzioni a risultati più probabili.
- Scegli un valore più alto per aumentare le dimensioni del pool e consentire al modello di considerare output meno probabili.
Ad esempio, se scegli un valore di 50 per Top K, il modello seleziona 50 dei token più probabili che potrebbero essere i successivi nella sequenza.
Top P: la percentuale di candidati più probabili che il modello considera per il token successivo.
- Scegli un valore più basso per ridurre le dimensioni del pool e limitare le opzioni a risultati più probabili.
- Scegli un valore più alto per aumentare le dimensioni del pool e consentire al modello di considerare output meno probabili.
In termini tecnici, il modello calcola la distribuzione cumulativa della probabilità per l'insieme di risposte e considera solo il valore P% più alto della distribuzione.

Ad esempio, scegliendo un valore di 0,8 per Top P, il modello seleziona dall'80% più alto della distribuzione di probabilità dei token che potrebbero essere i successivi nella sequenza.

La tabella seguente riepiloga gli effetti di questi parametri.

Parametro	Effetto di un valore più basso	Effetto di un valore più alto
Temperatura	Aumenta la possibilità di utilizzare token ad alta probabilità Riduce la possibilità di utilizzare token a bassa probabilità	Aumenta la possibilità di utilizzare token a bassa probabilità Riduce la possibilità di utilizzare token ad alta probabilità
Top K	Rimuove i token a bassa probabilità	Abilita i token a bassa probabilità
Top P	Rimuove i token a bassa probabilità	Abilita i token a bassa probabilità

Come esempio per comprendere questi parametri, prendi in considerazione il prompt di esempio I hear the hoof beats of ". Supponiamo che il modello determini che le seguenti tre parole siano candidate per il token successivo. Il modello assegna anche una probabilità per ogni parola.


{
    "horses": 0.7,
    "zebras": 0.2,
    "unicorns": 0.1
}

Se imposti una temperatura alta, la distribuzione delle probabilità viene appiattita e le probabilità risultano meno differenziate, il che aumenta la probabilità di scegliere "unicorni" e riduce la probabilità di scegliere "cavalli".
Se imposti Top K su 2, il modello considera solo i 2 candidati più probabili: "cavalli" e "zebre".
Se impostate Top P su 0,7, il modello considera solo i «cavalli» perché è l'unico candidato che si colloca nel 70% più alto della distribuzione di probabilità. Se impostate Top P su 0,9, il modello considera i «cavalli» e le «zebre» in quanto rientrano nel 90% più alto della distribuzione di probabilità.

Lunghezza

I modelli di fondazione di solito supportano i seguenti parametri che limitano la lunghezza della risposta. Di seguito sono riportati alcuni esempi di questi parametri.

Lunghezza della risposta: un valore esatto per specificare il numero minimo o massimo di token da restituire nella risposta generata.
Penalità: specifica il grado di penalizzazione degli output in una risposta. Gli esempi includono quanto segue.
- La lunghezza della risposta.
- I token ripetuti in una risposta.
- La frequenza dei token in una risposta.
- I tipi di token in una risposta.
Sequenze di arresto: specifica le sequenze di caratteri che impediscono al modello di generare ulteriori token. Se il modello genera una sequenza di arresto specificata dall'utente, smetterà di generare dopo tale sequenza.