Importante: configuração de tempo limite Tópicos principais de inferência

Inferência principal

Inferência é o processo de enviar uma solicitação para um modelo do Amazon Nova e receber uma resposta gerada. Os modelos do Amazon Nova são compatíveis com a inferência por meio de duas opções de API:

API Converse (Converse, ConverseStream): fornece uma interface consistente em diferentes modelos, facilitando a alternância entre modelos ou a criação de aplicações que funcionam com vários modelos. Recomendado para a maioria dos casos de uso.
API Invoke (InvokeModel, InvokeModelWithResponseStream): as cargas úteis de solicitação são estruturadas especificamente para o formato nativo de cada modelo. Executa a inferência usando os parâmetros de prompts e inferência fornecidos no corpo da solicitação.

Ambas as APIs são compatíveis com os mesmos recursos principais, incluindo:

Conversas em vários turnos
Entradas multimodais (texto, imagens, vídeo, áudio)
Uso de ferramentas
Barreiras de proteção
Respostas de streaming

A estrutura da solicitação é quase idêntica entre as duas APIs, diferindo apenas na forma como os dados em bytes (documentos, imagens, vídeo e áudio) são codificados. Para parâmetros de solicitação de modelo exclusivos dos modelos do Amazon Nova, como reasoningConfig e TopK, eles são colocados em um objeto inferenceConfig adicional em additionalModelRequestFields. Estes são os parâmetros de nível superior para InvokeModel e InvokeModelWithResponseStream.

nota

Analise exemplos de código e a solução de problemas para obter uma lista de exemplos de código com os modelos Nova 2.

Defina modelId como um dos seguintes para usar os modelos do Amazon Nova:

Modelo	ID do modelo
Nova 2 Lite	global.amazon.nova-2-lite-v1:0 us.amazon.nova-2-lite-v1:0
Nova 2 Sonic	global.amazon.nova-2-sonic-v1:0 us.amazon.nova-2-sonic-v1:0
Incorporador Multimodal do Nova	amazon.nova-2-multimodal-embeddings-v1:0

Importante: configuração de tempo limite

Importante

As solicitações de inferência do Amazon Nova podem levar até 60 minutos para serem concluídas. Defina as configurações de tempo limite do seu cliente adequadamente:

O exemplo a seguir é um código Python. Os usuários podem verificar a documentação da versão do idioma de preferência do SDK nos documentos da API desse SDK.


from botocore.config import Config

bedrock = boto3.client(
    'bedrock-runtime',
    region_name='us-east-1',
    config=Config(
        read_timeout=3600  # 60 minutes
    )
)

Tópicos principais de inferência

Esta seção discute os seguintes tópicos:

Usando a API Converse: uma interface consistente que oferece compatibilidade com a maioria dos modelos do Bedrock
Usando a API Invoke: uma interface exclusiva para modelos Nova e não compatível com outros modelos do Bedrock
Respostas de streaming: geração de respostas em tempo real
Uso de incorporações do Amazon Nova: recursos de incorporação de texto
Inferência sob demanda: modelo de inferência de pagamento conforme o uso

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Conceitos básicos da API

Usar a API Converse