Aumente el rendimiento con la inferencia entre regiones - Amazon Bedrock

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Aumente el rendimiento con la inferencia entre regiones

Al ejecutar la inferencia del modelo en el modo bajo demanda, es posible que sus solicitudes estén restringidas por Service Quotas o durante las horas de mayor uso. La inferencia entre regiones le permite gestionar sin problemas las ráfagas de tráfico no planificadas mediante el uso de la computación en diferentes áreas. Regiones de AWS Con la inferencia entre regiones, puede distribuir el tráfico entre varias regiones, lo que permite un mayor rendimiento. Regiones de AWS

Para utilizar la inferencia entre regiones, debe incluir un perfil de inferencia al ejecutar la inferencia del modelo de las siguientes maneras:

Para ver las regiones y los modelos con los que puede utilizar los perfiles de inferencia para ejecutar inferencias entre regiones, consulte. Regiones y modelos compatibles para perfiles de inferencia

También puede aumentar el rendimiento de un modelo mediante la compra de Rendimiento aprovisionado. Los perfiles de inferencia actualmente no admiten el rendimiento aprovisionado.

Para obtener información sobre cómo usar un perfil de inferencia para enviar solicitudes de invocación de modelos entre regiones, consulte. Uso de un perfil de inferencia en la invocación del modelo

Tenga en cuenta la siguiente información sobre la inferencia entre regiones:

  • El uso de la inferencia entre regiones no conlleva ningún costo de enrutamiento adicional. El precio se calcula en función de la región desde la que se llama al perfil de inferencia. Para obtener más información acerca de los precios, consulte Precios de Amazon Bedrock.

  • Al utilizar la inferencia entre regiones, el rendimiento puede alcanzar hasta el doble de las cuotas predeterminadas en la región en la que se encuentra el perfil de inferencia. El aumento del rendimiento solo se aplica a la invocación realizada a través de perfiles de inferencia; se seguirá aplicando la cuota normal si opta por una solicitud de invocación basada en un modelo regional. Por ejemplo, si invoca los EE. UU. Anthropic Claude 3 Sonnet perfil de inferencia en us-east-1, su rendimiento puede alcanzar hasta 1000 solicitudes por minuto y 2 000 000 de fichas por minuto. Para ver las cuotas predeterminadas del rendimiento bajo demanda, consulte la sección Cuotas de tiempo de ejecución en Cuotas para Amazon Bedrock o utilice la consola de Service Quotas.

  • Las solicitudes de inferencia entre regiones se mantienen dentro de las regiones que forman parte del perfil de inferencia que se ha utilizado. Por ejemplo, una solicitud realizada con un perfil de inferencia de la UE se guarda dentro de las regiones de la UE.

Para obtener más información sobre la inferencia entre regiones, consulte la publicación del blog Getting started with cross-region inference in Amazon Bedrock.