Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Mejore la resiliencia con la inferencia entre regiones
Al ejecutar la inferencia de modelos en modo bajo demanda, es posible que sus solicitudes estén restringidas por cuotas de servicio o durante las horas de mayor uso. La inferencia entre regiones le permite gestionar sin problemas las ráfagas de tráfico no planificadas mediante el uso de la computación en diferentes áreas. Regiones de AWS Con la inferencia entre regiones, puede distribuir el tráfico entre varias regiones Regiones de AWS, lo que permite un mayor rendimiento y una mayor resiliencia durante los períodos de máxima demanda.
Para utilizar la inferencia entre regiones, debe incluir un perfil de inferencia al ejecutar la inferencia del modelo especificando el ID del perfil de inferencia como el que aparece modelId
al enviar una solicitud, una conversación o una. InvokeModelInvokeModelWithResponseStreamConverseStream Un perfil de inferencia es una abstracción de un conjunto de recursos bajo demanda de un conjunto de recursos configurados. Regiones de AWS Un perfil de inferencia puede enrutar la solicitud de inferencia que se origina en la región de origen a otra región configurada en el grupo. El uso de la inferencia entre regiones aumenta el rendimiento y mejora la resiliencia al enrutar dinámicamente las solicitudes de invocación del modelo entre las regiones definidas en el perfil de inferencia. Factores de enrutamiento en el tráfico de usuarios, la demanda y la utilización de los recursos. La solicitud se tramita en la región en la que se originó.
La inferencia entre regiones está disponible actualmente para las siguientes funciones:
-
Inferencia de modelos: puede utilizar la inferencia entre regiones al ejecutar la invocación de modelos mediante Playgrounds en la consola de Amazon Bedrock o al utilizar InvokeModellas InvokeModelWithResponseStreamoperaciones,, Converse y. ConverseStream Para obtener más información, consulte Envíe solicitudes y genere respuestas con inferencia de modelos.
-
Generación de respuestas a la base de conocimientos: puede utilizar la inferencia entre regiones al generar una respuesta después de consultar una base de conocimientos o al analizar información no textual de una fuente de datos. Para obtener más información, consulte Consulte una base de conocimientos y genere respuestas de IA y Opciones de análisis avanzadas.
-
Evaluación del modelo: puede enviar un perfil de inferencia como modelo para evaluarlo al enviar un trabajo de evaluación de modelos. Para obtener más información, consulte Elija el modelo con mejor rendimiento mediante las evaluaciones de Amazon Bedrock.
-
Gestión rápida: puede utilizar la inferencia entre regiones al generar una respuesta para una solicitud que haya creado en Prompt Management. Para obtener más información, consulte Cree y almacene mensajes reutilizables con Prompt Management en Amazon Bedrock
-
Flujos de solicitudes: puede utilizar la inferencia entre regiones al generar una respuesta para una solicitud que defina en línea en un nodo de solicitud de un flujo de solicitudes. Para obtener más información, consulte Cree un flujo de trabajo de IA end-to-end generativo con Amazon Bedrock Prompt flows.
También puede aumentar el rendimiento de un modelo mediante la compra de Provisioned Throughput. Los perfiles de inferencia actualmente no admiten el rendimiento aprovisionado.
Tenga en cuenta la siguiente información sobre la inferencia entre regiones:
-
El uso de la inferencia entre regiones no conlleva ningún coste de enrutamiento adicional. El precio se calcula en función de la región desde la que se denomina un perfil de inferencia. Para obtener información sobre los precios, consulta los precios de Amazon Bedrock
. -
Al utilizar la inferencia entre regiones, su rendimiento puede alcanzar hasta el doble de las cuotas asignadas en la región en la que se encuentra el perfil de inferencia. El aumento del rendimiento solo se aplica a la invocación realizada a través de perfiles de inferencia; la cuota normal se seguirá aplicando si opta por una solicitud de invocación basada en un modelo regional. Por ejemplo, si invoca los EE. UU. Anthropic Claude 3 Sonnet Con un perfil de inferencia en EE. UU. Este (Virginia del Norte) (us-east-1), su rendimiento puede alcanzar hasta 1000 solicitudes por minuto y 2 000 000 de fichas por minuto. Para ver las cuotas predeterminadas para el rendimiento bajo demanda, consulte la sección Cuotas de tiempo de ejecución Cuotas para Amazon Bedrock o utilice la consola Service Quotas.
-
Las solicitudes de inferencia entre regiones se mantienen dentro de las regiones que forman parte del perfil de inferencia que se utilizó. Por ejemplo, una solicitud realizada con un perfil de inferencia de la UE se guarda dentro de las regiones de la UE.
Para obtener más información sobre la inferencia entre regiones, consulte Introducción a la inferencia entre regiones en