View a markdown version of this page

Inferência principal - Amazon Nova

Inferência principal

Inferência é o processo de enviar uma solicitação para um modelo do Amazon Nova e receber uma resposta gerada. Os modelos do Amazon Nova são compatíveis com a inferência por meio de duas opções de API:

  • API Converse (Converse, ConverseStream): fornece uma interface consistente em diferentes modelos, facilitando a alternância entre modelos ou a criação de aplicações que funcionam com vários modelos. Recomendado para a maioria dos casos de uso.

  • API Invoke (InvokeModel, InvokeModelWithResponseStream): as cargas úteis de solicitação são estruturadas especificamente para o formato nativo de cada modelo. Executa a inferência usando os parâmetros de prompts e inferência fornecidos no corpo da solicitação.

Ambas as APIs são compatíveis com os mesmos recursos principais, incluindo:

  • Conversas em vários turnos

  • Entradas multimodais (texto, imagens, vídeo, áudio)

  • Uso de ferramentas

  • Barreiras de proteção

  • Respostas de streaming

A estrutura da solicitação é quase idêntica entre as duas APIs, diferindo apenas na forma como os dados em bytes (documentos, imagens, vídeo e áudio) são codificados. Para parâmetros de solicitação de modelo exclusivos dos modelos do Amazon Nova, como reasoningConfig e TopK, eles são colocados em um objeto inferenceConfig adicional em additionalModelRequestFields. Estes são os parâmetros de nível superior para InvokeModel e InvokeModelWithResponseStream.

nota

Analise exemplos de código e a solução de problemas para obter uma lista de exemplos de código com os modelos Nova 2.

Defina modelId como um dos seguintes para usar os modelos do Amazon Nova:

Modelo

ID do modelo

Nova 2 Lite
  • global.amazon.nova-2-lite-v1:0

  • us.amazon.nova-2-lite-v1:0

Nova 2 Sonic

  • global.amazon.nova-2-sonic-v1:0

  • us.amazon.nova-2-sonic-v1:0

Incorporador Multimodal do Nova

amazon.nova-2-multimodal-embeddings-v1:0

Importante: configuração de tempo limite

Importante

As solicitações de inferência do Amazon Nova podem levar até 60 minutos para serem concluídas. Defina as configurações de tempo limite do seu cliente adequadamente:

O exemplo a seguir é um código Python. Os usuários podem verificar a documentação da versão do idioma de preferência do SDK nos documentos da API desse SDK.

from botocore.config import Config bedrock = boto3.client( 'bedrock-runtime', region_name='us-east-1', config=Config( read_timeout=3600 # 60 minutes ) )

Tópicos principais de inferência

Esta seção discute os seguintes tópicos:

  • Usando a API Converse: uma interface consistente que oferece compatibilidade com a maioria dos modelos do Bedrock

  • Usando a API Invoke: uma interface exclusiva para modelos Nova e não compatível com outros modelos do Bedrock

  • Respostas de streaming: geração de respostas em tempo real

  • Uso de incorporações do Amazon Nova: recursos de incorporação de texto

  • Inferência sob demanda: modelo de inferência de pagamento conforme o uso