Mejore la resiliencia con la inferencia entre regiones - Amazon Bedrock

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Mejore la resiliencia con la inferencia entre regiones

Al ejecutar la inferencia de modelos en modo bajo demanda, es posible que sus solicitudes estén restringidas por cuotas de servicio o durante las horas de mayor uso. La inferencia entre regiones le permite gestionar sin problemas las ráfagas de tráfico no planificadas mediante el uso de la computación en diferentes áreas. Regiones de AWS Con la inferencia entre regiones, puede distribuir el tráfico entre varias regiones Regiones de AWS, lo que permite un mayor rendimiento y una mayor resiliencia durante los períodos de máxima demanda.

Para utilizar la inferencia entre regiones, debe incluir un perfil de inferencia al ejecutar la inferencia del modelo especificando el ID del perfil de inferencia como el que aparece modelId al enviar una solicitud, una conversación o una. InvokeModelInvokeModelWithResponseStreamConverseStream Un perfil de inferencia es una abstracción de un conjunto de recursos bajo demanda de un conjunto de recursos configurados. Regiones de AWS Un perfil de inferencia puede enrutar la solicitud de inferencia que se origina en la región de origen a otra región configurada en el grupo. El uso de la inferencia entre regiones aumenta el rendimiento y mejora la resiliencia al enrutar dinámicamente las solicitudes de invocación del modelo entre las regiones definidas en el perfil de inferencia. Factores de enrutamiento en el tráfico de usuarios, la demanda y la utilización de los recursos. La solicitud se tramita en la región en la que se originó.

La inferencia entre regiones está disponible actualmente para las siguientes funciones:

También puede aumentar el rendimiento de un modelo mediante la compra de Provisioned Throughput. Los perfiles de inferencia actualmente no admiten el rendimiento aprovisionado.

Tenga en cuenta la siguiente información sobre la inferencia entre regiones:

  • El uso de la inferencia entre regiones no conlleva ningún coste de enrutamiento adicional. El precio se calcula en función de la región desde la que se denomina un perfil de inferencia. Para obtener información sobre los precios, consulta los precios de Amazon Bedrock.

  • Al utilizar la inferencia entre regiones, su rendimiento puede alcanzar hasta el doble de las cuotas asignadas en la región en la que se encuentra el perfil de inferencia. El aumento del rendimiento solo se aplica a la invocación realizada a través de perfiles de inferencia; la cuota normal se seguirá aplicando si opta por una solicitud de invocación basada en un modelo regional. Por ejemplo, si invoca los EE. UU. Anthropic Claude 3 Sonnet Con un perfil de inferencia en EE. UU. Este (Virginia del Norte) (us-east-1), su rendimiento puede alcanzar hasta 1000 solicitudes por minuto y 2 000 000 de fichas por minuto. Para ver las cuotas predeterminadas para el rendimiento bajo demanda, consulte la sección Cuotas de tiempo de ejecución Cuotas para Amazon Bedrock o utilice la consola Service Quotas.

  • Las solicitudes de inferencia entre regiones se mantienen dentro de las regiones que forman parte del perfil de inferencia que se utilizó. Por ejemplo, una solicitud realizada con un perfil de inferencia de la UE se guarda dentro de las regiones de la UE.

Para obtener más información sobre la inferencia entre regiones, consulte Introducción a la inferencia entre regiones en Amazon Bedrock.