View a markdown version of this page

Inferencia básica - Amazon Nova

Inferencia básica

La inferencia es el proceso de enviar una solicitud a un modelo de Amazon Nova y recibir una respuesta generada. Los modelos de Amazon Nova admiten la inferencia a través de dos opciones de API:

  • API de Converse (Converse, ConverseStream): proporciona una interfaz coherente en los diferentes modelos, lo que facilita el cambio entre modelos o la creación de aplicaciones que funcionen con varios modelos. Se recomienda para la mayoría de los casos de uso.

  • API de Invoke (InvokeModel, InvokeModelWithResponseStream): las cargas útiles de las solicitudes están estructuradas específicamente para el formato nativo de cada modelo. Ejecuta la inferencia con los parámetros de petición e inferencia proporcionados en el cuerpo de la solicitud.

Ambas API admiten las mismas características básicas, que incluyen lo siguiente:

  • Conversaciones de varios turnos

  • Entradas multimodales (texto, imágenes, video, audio)

  • Uso de herramienta

  • Barreras de protección

  • Respuestas de transmisión

La estructura de la solicitud es casi idéntica entre las dos API y solo se diferencia en la forma en que se codifican los datos de bytes (documentos, imágenes, video y audio). Para los parámetros de la solicitud de modelos exclusivos de los modelos de Amazon Nova, como reasoningConfig y TopK, estos se colocan dentro de un objeto inferenceConfig adicional dentro de additionalModelRequestFields. Estos son parámetros de nivel superior para InvokeModel y InvokeModelWithResponseStream.

nota

Consulte Code Samples y Solución de problemas para obtener una lista de muestras de código con modelos de Nova 2.

Establezca modelId en una de las siguientes opciones para utilizar los modelos de Amazon Nova:

Modelo

ID del modelo

Nova 2 Lite
  • global.amazon.nova-2-lite-v1:0

  • us.amazon.nova-2-lite-v1:0

Nova 2 Sonic

  • global.amazon.nova-2-sonic-v1:0

  • us.amazon.nova-2-sonic-v1:0

Nova Multimodal Embeddings

amazon.nova-2-multimodal-embeddings-v1:0

Importante: Configuración del tiempo de espera

importante

Las solicitudes de inferencia de Amazon Nova pueden tardar hasta 60 minutos en completarse. Establezca la configuración del tiempo de espera del cliente en consecuencia:

A continuación se muestra un ejemplo de código de Python. Los usuarios pueden consultar la documentación para ver la versión en el idioma del SDK que prefieran en los documentos de la API del SDK.

from botocore.config import Config bedrock = boto3.client( 'bedrock-runtime', region_name='us-east-1', config=Config( read_timeout=3600 # 60 minutes ) )

Temas de inferencia básica

En esta sección, se tratan los siguientes temas:

  • Uso de la API de Converse: interfaz coherente que ofrece compatibilidad con la mayoría de los modelos de Bedrock

  • Uso de la API de Invoke: interfaz exclusiva de los modelos de Nova y no portátil para otros modelos de Bedrock

  • Respuestas de transmisión: generación de respuestas en tiempo real

  • Uso de incrustaciones de Amazon Nova: capacidades de incrustación de texto

  • Inferencia bajo demanda: modelo de inferencia de pago por uso