Inferenza di Amazon Bedrock

Dopo aver addestrato e testato il tuo modello Amazon Nova, puoi distribuirlo su Amazon Bedrock per l'inferenza su scala di produzione. Il processo di distribuzione prevede la creazione di un modello Amazon Bedrock con l' CreateCustomModel API, l'esportazione degli artefatti del modello da un bucket Amazon S3 gestito e, una volta che il modello è ATTIVO, la configurazione di un endpoint con inferenza di throughput su richiesta o fornita.

Dopo aver creato un modello personalizzato in SageMaker, puoi utilizzare l' CreateCustomModel API per distribuirlo su Amazon Bedrock dall' SageMaker escrow all'esecuzione dell'inferenza. Puoi quindi utilizzarlo CreateCustomModelDeployment per creare un endpoint di inferenza OD o impostare un'inferenza di throughput assegnata per un modello PEFT (Parameter Efficient Fine Tuned). È possibile impostare l'inferenza del throughput assegnato per un modello personalizzato Full Rank.

Puoi anche utilizzare l'SDK Amazon Nova Forge per distribuire modelli Amazon Nova personalizzati. L'SDK Amazon Nova Forge offre un'esperienza semplificata per estrarre le informazioni pertinenti da un processo di formazione o da un checkpoint del modello S3 e pubblicarle su Amazon Bedrock. Per ulteriori informazioni, consulta Amazon Nova Forge SDK.

Per i passaggi dettagliati per configurare l'inferenza di Amazon Bedrock per un modello personalizzato, consulta Distribuzione di modelli Amazon Nova personalizzati su Amazon Bedrock.

La sezione seguente fornisce maggiori dettagli sull' On-Demand inferenza su modelli personalizzati.

On-demand inferenza su modelli personalizzati

On-demand L'inferenza (OD) ti consente di eseguire inferenze sui tuoi modelli Amazon Nova personalizzati senza mantenere gli endpoint di throughput assegnati. Questo ti aiuta a ottimizzare i costi e a scalare in modo efficiente. Con On-demand l'inferenza, i costi vengono addebitati in base all'utilizzo, misurato in token, sia in entrata che in uscita.

Requisiti di compatibilità

Si applicano i seguenti requisiti di compatibilità:

L'inferenza OD è supportata per i modelli di comprensione personalizzati di Amazon Nova Pro, Lite e Micro. L’inferenza OD non è supportata per i modelli di generazione di contenuti personalizzati di Nova.
L’inferenza OD è supportata per i modelli di comprensione personalizzati di Amazon Nova addestrati dopo il 16 luglio 2025. I modelli personalizzati addestrati prima del 16 luglio 2025 non sono compatibili con l’inferenza OD.
Personalizzazione di Amazon Bedrock: l’inferenza OD è supportata per i modelli personalizzati con la personalizzazione di Amazon Bedrock e per i modelli studente che sono stati distillati da un modello insegnante con Amazon Bedrock.
SageMaker Personalizzazione AI: per i modelli personalizzati in SageMaker AI, l'inferenza OD è supportata solo per i modelli Parameter-efficient fine-tuned (PEFT) quando il modello è ospitato su Amazon Bedrock. Ciò include l’ottimizzazione diretta delle preferenze più PEFT. L'inferenza OD non è supportata per i modelli ottimizzati. Full-rank

Addestramento dei modelli e inferenza

Quando addestra un nuovo modello Amazon Nova Pro, Lite o Micro personalizzato su Amazon Bedrock o SageMaker AI utilizzando PEFT dopo il 16 luglio 2025, il modello sarà automaticamente compatibile con le opzioni di inferenza fornite e su richiesta. Puoi selezionare il metodo di inferenza preferito quando implementi il modello.

Per utilizzare l’inferenza OD con un modello addestrato dopo il 16 luglio 2025, completa i seguenti passaggi:

Crea un nuovo lavoro di ottimizzazione con l'API di personalizzazione Amazon Bedrock o l'API di personalizzazione AI. SageMaker
Implementa il modello appena addestrato su Amazon Bedrock utilizzando l'CreateCustomModel API.
Implementa per l'inferenza su richiesta utilizzando l'API. CustomModelDeployment

Limiti di frequenza

I seguenti limiti di richieste al minuto (RPM) e token al minuto (TPM) si applicano alle richieste di inferenza on demand:

Modello base per modello personalizzato	RPM per implementazione del modello personalizzato	TPM per implementazione di modelli personalizzati
Nova 2 Lite	2.000	4.000.000

Per saperne di più sulle quote disponibili per Amazon Nova, consulta Quote per Amazon Nova.

Latenza

Puoi aspettarti una differenza di latenza end-to-end (ovvero, tempo al primo token [Time To First Token, TTFT]) del 20-55% tra l’invocazione del modello di base e l’adattatore. Il valore esatto di latenza varia in base alle dimensioni del modello ed è in linea con gli standard del settore.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Rilevamento degli abusi per Amazon Nova Forge

Implementare un modello personalizzato per l’inferenza on demand