Importante: configurazione del timeout Argomenti di inferenza principali

Inferenza di base

L'inferenza è il processo di invio di una richiesta a un modello Amazon Nova e di ricezione di una risposta generata. I modelli Amazon Nova supportano l'inferenza tramite due opzioni API:

Converse API (Converse, ConverseStream): fornisce un'interfaccia coerente tra diversi modelli, semplificando il passaggio da un modello all'altro o la creazione di applicazioni che funzionano con più modelli. Consigliata per la maggior parte dei casi d'uso.
Invoke API (InvokeModel, InvokeModelWithResponseStream): i payload delle richieste sono strutturati specificamente per il formato nativo di ogni modello. Esegue l'inferenza utilizzando i parametri di prompt e inferenza forniti nel corpo della richiesta.

Entrambi APIs supportano le stesse funzionalità principali, tra cui:

Conversazioni a più turni
Ingressi multimodali (testo, immagini, video, audio)
Utilizzo degli strumenti
Guardrail
Streaming delle risposte

La struttura della richiesta è quasi identica tra le due APIs, differisce solo per il modo in cui vengono codificati i dati in byte (documenti, immagini, video e audio). Per i parametri di richiesta del modello esclusivi dei modelli Amazon Nova, come reasoningConfig eTopK, questi vengono inseriti all'interno di un oggetto aggiuntivo all'interno di. inferenceConfig additionalModelRequestFields Si tratta di parametri di primo livello per e. InvokeModel InvokeModelWithResponseStream

Nota

Consulta gli esempi di codice e la risoluzione dei problemi per un elenco di esempi di codice con i modelli Nova 2.

Imposta uno dei seguenti per utilizzare i modelli Amazon Nova: modelId

Modello	ID modello
Nova 2 Lite	global.amazon.nova-2-lite-v1:0 it.amazon.nova-2-lite-v 1:0
Nova 2 Sonic	global.amazon.nova-2-sonic-v 1:0 it.amazon.nova-2-sonic-v 1:0
Incorporamenti multimodali Nova	amazon.nova-2-1:0 multimodal-embeddings-v

Importante: configurazione del timeout

Importante

Il completamento delle richieste di inferenza di Amazon Nova può richiedere fino a 60 minuti. Configura di conseguenza le impostazioni di timeout del client:

L'esempio seguente è il codice Python. Gli utenti possono controllare la documentazione per la versione del linguaggio SDK preferita nei documenti API di quell'SDK.


from botocore.config import Config

bedrock = boto3.client(
    'bedrock-runtime',
    region_name='us-east-1',
    config=Config(
        read_timeout=3600  # 60 minutes
    )
)

Argomenti di inferenza principali

Questa sezione tratta i seguenti argomenti:

Utilizzo dell'API converse: un'interfaccia coerente che offre compatibilità con la maggior parte dei modelli Bedrock
Utilizzo dell'API invoke: un'interfaccia unica per i modelli Nova e non portabile su altri modelli Bedrock
Risposte in streaming: generazione di risposte in tempo reale
Utilizzo degli incorporamenti di Amazon Nova: funzionalità di incorporamento di testo
Inferenza su richiesta: modello di inferenza Pay-per-use

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Nozioni di base sull’API

Utilizzo dell’API Converse