Inferencia bajo demanda
La inferencia bajo demanda proporciona acceso sin servidor a los modelos de Amazon Nova sin necesidad de capacidad aprovisionada. Este modo escala automáticamente para gestionar la carga de trabajo y los cargos en función del uso.
Ventajas
La inferencia bajo demanda ofrece varias ventajas:
-
Sin planificación de la capacidad: escala automáticamente para satisfacer la demanda.
-
Pago por uso: solo pagará por los tokens procesados.
-
Disponibilidad instantánea: no se requiere tiempo de aprovisionamiento ni calentamiento.
-
Rentable: ideal para cargas de trabajo variables o impredecibles.
Uso de la inferencia bajo demanda
La inferencia bajo demanda es el modo predeterminado de los modelos de Amazon Nova. Solo tiene que especificar el ID del modelo al hacer llamadas a la API:
import boto3 bedrock = boto3.client('bedrock-runtime', region_name='us-east-1') response = bedrock.converse( modelId='us.amazon.nova-2-lite-v1:0', messages=[ { 'role': 'user', 'content': [{'text': 'Hello, Nova!'}] } ] ) # Print the response text content_list = response["output"]["message"]["content"] text = next((item["text"] for item in content_list if "text" in item), None) if text is not None: print(text)
Precios
La inferencia bajo demanda se factura en función del número de tokens de entrada y salida procesados. Para obtener los detalles sobre los precios, consulte Precios de Amazon Bedrock
Cuotas y límites
La inferencia bajo demanda tiene cuotas predeterminadas que varían según el modelo y la región. Para solicitar un aumento de la cuota, use la consola de Service Quotas