Importante: Configuración del tiempo de espera Temas de inferencia básica

Inferencia básica

La inferencia es el proceso de enviar una solicitud a un modelo de Amazon Nova y recibir una respuesta generada. Los modelos de Amazon Nova admiten la inferencia a través de dos opciones de API:

API de Converse (Converse, ConverseStream): proporciona una interfaz coherente en los diferentes modelos, lo que facilita el cambio entre modelos o la creación de aplicaciones que funcionen con varios modelos. Se recomienda para la mayoría de los casos de uso.
API de Invoke (InvokeModel, InvokeModelWithResponseStream): las cargas útiles de las solicitudes están estructuradas específicamente para el formato nativo de cada modelo. Ejecuta la inferencia con los parámetros de petición e inferencia proporcionados en el cuerpo de la solicitud.

Ambas API admiten las mismas características básicas, que incluyen lo siguiente:

Conversaciones de varios turnos
Entradas multimodales (texto, imágenes, video, audio)
Uso de herramienta
Barreras de protección
Respuestas de transmisión

La estructura de la solicitud es casi idéntica entre las dos API y solo se diferencia en la forma en que se codifican los datos de bytes (documentos, imágenes, video y audio). Para los parámetros de la solicitud de modelos exclusivos de los modelos de Amazon Nova, como reasoningConfig y TopK, estos se colocan dentro de un objeto inferenceConfig adicional dentro de additionalModelRequestFields. Estos son parámetros de nivel superior para InvokeModel y InvokeModelWithResponseStream.

nota

Consulte Code Samples y Solución de problemas para obtener una lista de muestras de código con modelos de Nova 2.

Establezca modelId en una de las siguientes opciones para utilizar los modelos de Amazon Nova:

Modelo	ID del modelo
Nova 2 Lite	global.amazon.nova-2-lite-v1:0 us.amazon.nova-2-lite-v1:0
Nova 2 Sonic	global.amazon.nova-2-sonic-v1:0 us.amazon.nova-2-sonic-v1:0
Nova Multimodal Embeddings	amazon.nova-2-multimodal-embeddings-v1:0

Importante: Configuración del tiempo de espera

importante

Las solicitudes de inferencia de Amazon Nova pueden tardar hasta 60 minutos en completarse. Establezca la configuración del tiempo de espera del cliente en consecuencia:

A continuación se muestra un ejemplo de código de Python. Los usuarios pueden consultar la documentación para ver la versión en el idioma del SDK que prefieran en los documentos de la API del SDK.


from botocore.config import Config

bedrock = boto3.client(
    'bedrock-runtime',
    region_name='us-east-1',
    config=Config(
        read_timeout=3600  # 60 minutes
    )
)

Temas de inferencia básica

En esta sección, se tratan los siguientes temas:

Uso de la API de Converse: interfaz coherente que ofrece compatibilidad con la mayoría de los modelos de Bedrock
Uso de la API de Invoke: interfaz exclusiva de los modelos de Nova y no portátil para otros modelos de Bedrock
Respuestas de transmisión: generación de respuestas en tiempo real
Uso de incrustaciones de Amazon Nova: capacidades de incrustación de texto
Inferencia bajo demanda: modelo de inferencia de pago por uso

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Introducción a la API

Uso de la API de Converse