Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Quando inviate un input a un modello, il modello prevede una probabile sequenza di token che segue e restituisce tale sequenza come output. Amazon Bedrock ti offre la possibilità di eseguire inferenze con il modello di base che preferisci. Quando esegui l'inferenza, fornisci i seguenti input:
-
Prompt: input fornito al modello affinché questo generi una risposta. Per informazioni sulla scrittura dei prompt, consulta Concetti ingegneristici rapidi. Per informazioni sulla protezione dagli attacchi di pronta iniezione, vedere. Sicurezza di iniezione rapida
-
Modello: un modello di base o un profilo di inferenza con cui eseguire l'inferenza. Il modello o il profilo di inferenza scelto specifica anche un livello di throughput, che definisce il numero e la velocità dei token di input e output che è possibile elaborare. Per ulteriori informazioni sui modelli di base disponibili in Amazon Bedrock, consultaInformazioni sul modello Amazon Bedrock Foundation. Per ulteriori informazioni sui profili di inferenza, consulta. Imposta una risorsa di invocazione del modello utilizzando i profili di inferenza Per ulteriori informazioni sull'aumento della velocità effettiva, vedere Aumenta la produttività con l'inferenza tra regioni e. Aumenta la capacità di invocazione del modello con Provisioned Throughput in Amazon Bedrock
-
Parametri di inferenza: un set di valori che possono essere adattati per limitare o influenzare la risposta del modello. Per informazioni sui parametri di inferenza, consulta Influenza la generazione della risposta con parametri di inferenza e Parametri della richiesta di inferenza e campi di risposta per i modelli di base.
Richiamo di modelli in diverse regioni AWS
Quando si richiama un modello, si sceglie Regione AWS in che modo richiamarlo. Le quote per la frequenza e la dimensione delle richieste che è possibile effettuare dipendono dalla regione. Puoi trovare queste quote cercando le seguenti quote nelle quote del servizio Amazon Bedrock:
-
Richieste di inferenza di modelli su richiesta al minuto per
${Model}
-
InvokeModel Token su richiesta al minuto per
${Model}
Puoi anche richiamare un profilo di inferenza anziché il modello di base stesso. Un profilo di inferenza definisce un modello e una o più regioni verso le quali il profilo di inferenza può indirizzare le richieste di invocazione del modello. Richiamando un profilo di inferenza che include più regioni, è possibile aumentare la velocità effettiva. Per ulteriori informazioni, consulta Aumenta la produttività con l'inferenza tra regioni.
Le richieste inoltrate a una regione possono essere servite da zone locali che condividono la stessa regione principale. Ad esempio, le richieste effettuate a US East (Virginia settentrionale) (us-east-1) possono essere servite da qualsiasi zona locale ad essa associata, come Atlanta, Stati Uniti (us-east-1-atl-2a).
Lo stesso principio si applica quando si utilizza l'inferenza interregionale. Ad esempio, le richieste fatte agli Stati Uniti Anthropic Claude 3 Haiku il profilo di inferenza può essere fornito da qualsiasi zona locale la cui regione madre si trova negli Stati Uniti, come Seattle, USA (us-west-2-sea-1a). Quando vengono aggiunte nuove zone locali AWS, queste verranno aggiunte anche all'endpoint di inferenza interregionale corrispondente.
Per visualizzare un elenco degli endpoint locali e delle regioni principali a cui sono associati, vedi AWS Local Zones Locations