Aumenta la produttività con l'inferenza tra regioni - Amazon Bedrock

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Aumenta la produttività con l'inferenza tra regioni

Quando si esegue l'inferenza del modello in modalità on demand, le richieste potrebbero essere limitate dalle quote di servizio o durante i periodi di picco di utilizzo. L'inferenza tra regioni consente di gestire senza problemi i picchi di traffico non pianificati utilizzando l'elaborazione tra diverse regioni. Regioni AWS Con l'inferenza interregionale, puoi distribuire il traffico su più regioni, garantendo un throughput più elevato. Regioni AWS

Per utilizzare l'inferenza tra regioni, è necessario includere un profilo di inferenza quando si esegue l'inferenza del modello nei seguenti modi:

Per visualizzare le regioni e i modelli con cui è possibile utilizzare i profili di inferenza per eseguire l'inferenza tra regioni, fare riferimento a. Regioni e modelli supportati per i profili di inferenza

È inoltre possibile aumentare la velocità effettiva di un modello acquistando Provisioned Throughput. I profili di inferenza attualmente non supportano Provisioned Throughput.

Per informazioni su come utilizzare un profilo di inferenza per inviare richieste di invocazione del modello tra le regioni, consulta. Usa un profilo di inferenza nell'invocazione del modello

Nota le seguenti informazioni sull'inferenza tra regioni:

  • Non sono previsti costi di routing aggiuntivi per l'utilizzo dell'inferenza tra regioni. Il prezzo viene calcolato in base alla regione da cui si richiama un profilo di inferenza. Per informazioni sui prezzi, consulta i prezzi di Amazon Bedrock.

  • Quando si utilizza l'inferenza tra regioni, la velocità effettiva può raggiungere fino al doppio delle quote predefinite nella regione in cui si trova il profilo di inferenza. L'aumento della velocità effettiva si applica solo alle chiamate eseguite tramite profili di inferenza, la quota normale si applica comunque se si opta per la richiesta di invocazione del modello locale. Ad esempio, se si invocano gli Stati Uniti Anthropic Claude 3 Sonnet profilo di inferenza in us-east-1, il tuo throughput può raggiungere fino a 1.000 richieste al minuto e 2.000.000 di token al minuto. Per visualizzare le quote predefinite per la velocità effettiva su richiesta, consulta la sezione Runtime quote nella console Service Quotas Quote per Amazon Bedrock o utilizza la console Service Quotas.

  • Le richieste di inferenza tra regioni vengono conservate all'interno delle regioni che fanno parte del profilo di inferenza utilizzato. Ad esempio, una richiesta effettuata con un profilo di inferenza dell'UE viene conservata all'interno delle regioni dell'UE.

Per ulteriori informazioni sull'inferenza tra regioni, consulta Guida introduttiva all'inferenza interregionale in Amazon Bedrock.