Inferência principal
Inferência é o processo de enviar uma solicitação para um modelo do Amazon Nova e receber uma resposta gerada. Os modelos do Amazon Nova são compatíveis com a inferência por meio de duas opções de API:
-
API Converse (Converse, ConverseStream): fornece uma interface consistente em diferentes modelos, facilitando a alternância entre modelos ou a criação de aplicações que funcionam com vários modelos. Recomendado para a maioria dos casos de uso.
-
API Invoke (InvokeModel, InvokeModelWithResponseStream): as cargas úteis de solicitação são estruturadas especificamente para o formato nativo de cada modelo. Executa a inferência usando os parâmetros de prompts e inferência fornecidos no corpo da solicitação.
Ambas as APIs são compatíveis com os mesmos recursos principais, incluindo:
-
Conversas em vários turnos
-
Entradas multimodais (texto, imagens, vídeo, áudio)
-
Uso de ferramentas
-
Barreiras de proteção
-
Respostas de streaming
A estrutura da solicitação é quase idêntica entre as duas APIs, diferindo apenas na forma como os dados em bytes (documentos, imagens, vídeo e áudio) são codificados. Para parâmetros de solicitação de modelo exclusivos dos modelos do Amazon Nova, como reasoningConfig e TopK, eles são colocados em um objeto inferenceConfig adicional em additionalModelRequestFields. Estes são os parâmetros de nível superior para InvokeModel e InvokeModelWithResponseStream.
nota
Analise exemplos de código e a solução de problemas para obter uma lista de exemplos de código com os modelos Nova 2.
Defina modelId como um dos seguintes para usar os modelos do Amazon Nova:
Modelo |
ID do modelo |
|---|---|
| Nova 2 Lite |
|
Nova 2 Sonic |
|
Incorporador Multimodal do Nova |
amazon.nova-2-multimodal-embeddings-v1:0 |
Importante: configuração de tempo limite
Importante
As solicitações de inferência do Amazon Nova podem levar até 60 minutos para serem concluídas. Defina as configurações de tempo limite do seu cliente adequadamente:
O exemplo a seguir é um código Python. Os usuários podem verificar a documentação da versão do idioma de preferência do SDK nos documentos da API desse SDK.
from botocore.config import Config bedrock = boto3.client( 'bedrock-runtime', region_name='us-east-1', config=Config( read_timeout=3600 # 60 minutes ) )
Tópicos principais de inferência
Esta seção discute os seguintes tópicos:
-
Usando a API Converse: uma interface consistente que oferece compatibilidade com a maioria dos modelos do Bedrock
-
Usando a API Invoke: uma interface exclusiva para modelos Nova e não compatível com outros modelos do Bedrock
-
Respostas de streaming: geração de respostas em tempo real
-
Uso de incorporações do Amazon Nova: recursos de incorporação de texto
-
Inferência sob demanda: modelo de inferência de pagamento conforme o uso