Aumente el rendimiento con la inferencia entre regiones

Al ejecutar la inferencia del modelo en el modo bajo demanda, es posible que sus solicitudes estén restringidas por Service Quotas o durante las horas de mayor uso. La inferencia entre regiones le permite gestionar sin problemas las ráfagas de tráfico no planificadas mediante el uso de la computación en diferentes áreas. Regiones de AWS Con la inferencia entre regiones, puede distribuir el tráfico entre varias regiones, lo que permite un mayor rendimiento. Regiones de AWS

Para utilizar la inferencia entre regiones, debe incluir un perfil de inferencia al ejecutar la inferencia del modelo de las siguientes maneras:

Inferencia de modelos bajo demanda: especifique el ID del perfil de inferencia modelId al enviar una solicitud InvokeModel, InvokeModelWithResponseStreamuna conversación o una. ConverseStream Un perfil de inferencia define una o más regiones a las que puede dirigir las solicitudes de inferencia que se originan en la región de origen. El uso de la inferencia entre regiones aumenta el rendimiento y el rendimiento al enrutar dinámicamente las solicitudes de invocación del modelo entre las regiones definidas en el perfil de inferencia. Factores de enrutamiento en el tráfico de usuarios, la demanda y la utilización de los recursos. Para obtener más información, consulte Envío de solicitudes y generación de respuestas con inferencia de modelos
Inferencia por lotes: envíe las solicitudes de forma asíncrona con la inferencia por lotes especificando el ID del perfil de inferencia al enviar una solicitud. modelId CreateModelInvocationJob El uso de un perfil de inferencia le permite utilizar la computación en varios Regiones de AWS y lograr tiempos de procesamiento más rápidos para sus trabajos por lotes. Una vez finalizado el trabajo, puede recuperar los archivos de salida del bucket de Amazon S3 en la región de origen.
Generación de respuestas a la base de conocimientos: puede utilizar la inferencia entre regiones al generar una respuesta después de consultar una base de conocimientos o al analizar información no textual de una fuente de datos. Para obtener más información, consulte Prueba de la base de conocimientos mediante consultas y respuestas y Opciones de análisis para su fuente de datos.
Evaluación del modelo: puede enviar un perfil de inferencia como modelo para evaluarlo al enviar un trabajo de evaluación de modelos. Para obtener más información, consulte Evalúe el rendimiento de los recursos de Amazon Bedrock.
Gestión rápida: puede utilizar la inferencia entre regiones al generar una respuesta para una solicitud que haya creado en Prompt Management. Para obtener más información, consulte Creación y almacenamiento de peticiones reutilizables con la administración de peticiones en Amazon Bedrock
Flujos de solicitudes: puede utilizar la inferencia entre regiones al generar una respuesta para una solicitud que defina en línea en un nodo de solicitud de un flujo de solicitudes. Para obtener más información, consulte Cree un flujo de trabajo de IA end-to-end generativo con Amazon Bedrock Flows.

Para ver las regiones y los modelos con los que puede utilizar los perfiles de inferencia para ejecutar inferencias entre regiones, consulte. Regiones y modelos compatibles para perfiles de inferencia

También puede aumentar el rendimiento de un modelo mediante la compra de Rendimiento aprovisionado. Los perfiles de inferencia actualmente no admiten el rendimiento aprovisionado.

Para obtener información sobre cómo usar un perfil de inferencia para enviar solicitudes de invocación de modelos entre regiones, consulte. Uso de un perfil de inferencia en la invocación del modelo

Tenga en cuenta la siguiente información sobre la inferencia entre regiones:

El uso de la inferencia entre regiones no conlleva ningún costo de enrutamiento adicional. El precio se calcula en función de la región desde la que se llama al perfil de inferencia. Para obtener más información acerca de los precios, consulte Precios de Amazon Bedrock.
Al utilizar la inferencia entre regiones, el rendimiento puede alcanzar hasta el doble de las cuotas predeterminadas en la región en la que se encuentra el perfil de inferencia. El aumento del rendimiento solo se aplica a la invocación realizada a través de perfiles de inferencia; se seguirá aplicando la cuota normal si opta por una solicitud de invocación basada en un modelo regional. Por ejemplo, si invoca los EE. UU. Anthropic Claude 3 Sonnet perfil de inferencia en us-east-1, su rendimiento puede alcanzar hasta 1000 solicitudes por minuto y 2 000 000 de fichas por minuto. Para ver las cuotas predeterminadas del rendimiento bajo demanda, consulte la sección Cuotas de tiempo de ejecución en Cuotas para Amazon Bedrock o utilice la consola de Service Quotas.
Las solicitudes de inferencia entre regiones se mantienen dentro de las regiones que forman parte del perfil de inferencia que se ha utilizado. Por ejemplo, una solicitud realizada con un perfil de inferencia de la UE se guarda dentro de las regiones de la UE.

Para obtener más información sobre la inferencia entre regiones, consulte la publicación del blog Getting started with cross-region inference in Amazon Bedrock.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Uso de la API de automatización de datos de Bedrock

Aumento de la capacidad de invocación de modelos con el rendimiento aprovisionado