Envie solicitações e gere respostas com inferência de modelo

Inferência se refere ao processo de gerar uma saída com base em uma entrada fornecida a um modelo. Os modelos de base usam probabilidade para construir as palavras em uma sequência. Dada uma entrada, o modelo prevê uma provável sequência de tokens que se segue e retorna essa sequência como saída. O Amazon Bedrock oferece a capacidade de executar inferência no modelo de base de sua escolha. Ao executar a inferência, você fornece as entradas a seguir.

Prompt: uma entrada fornecida ao modelo para que ele gere uma resposta. Para obter informações sobre como escrever prompts, consulte Conceitos de engenharia rápidos. Para obter informações sobre a proteção contra ataques imediatos de injeção, consulteSegurança rápida de injeção.
Parâmetros de inferência: um conjunto de valores que podem ser ajustados para limitar ou influenciar a resposta do modelo. Para obter informações sobre os parâmetros de inferência, consulte Influencie a geração de respostas com parâmetros de inferência e Parâmetros de inferência para modelos de base.

O Amazon Bedrock oferece um conjunto de modelos básicos que você pode usar para gerar resultados das seguintes modalidades. Para ver o suporte de modalidade por modelo de fundação, consulte. Modelos de base compatíveis com o Amazon Bedrock

Modalidade de saída	Descrição	Exemplo de casos de uso
Texto	Forneça entrada de texto e gere vários tipos de texto	Bate-papo question-and-answering, brainstorming, resumo, geração de código, criação de tabelas, formatação de dados, reescrita
Imagem	Forneça texto ou imagens de entrada e gere ou modifique imagens	Geração de imagens, edição de imagens, variação de imagem
Incorporações	Forneça texto, imagens ou texto e imagens e gere um vetor de valores numéricos que representem a entrada. O vetor de saída pode ser comparado a outros vetores de incorporação para determinar a similaridade semântica (para texto) ou a semelhança visual (para imagens).	Pesquisa de texto e imagem, consulta, categorização, recomendações, personalização, criação de base de conhecimento

Ao executar a inferência, você especifica o nível de taxa de transferência a ser usado selecionando uma taxa de transferência no console ou especificando a taxa de transferência no campo em uma solicitação. modelId API A taxa de transferência define o número e a taxa de tokens de entrada e saída que você pode processar. Para obter mais informações, consulte Aumente a produtividade para obter resiliência e poder de processamento.

Você pode executar a inferência de modelos conforme descrito a seguir.

Use qualquer um dos Playgrounds para executar inferências em uma interface gráfica fácil de usar.
Use o Converse API (Converse e ConverseStream) para implementar aplicativos de conversação.
Envie uma InvokeModelWithResponseStreamsolicitação InvokeModelou.
Prepare um conjunto de dados de prompts com as configurações desejadas e execute a inferência em lote com uma solicitação CreateModelInvocationJob.
Os seguintes recursos do Amazon Bedrock usam a inferência de modelos como uma etapa em uma orquestração maior. Consulte essas seções para obter mais detalhes.
- Configure uma base de conhecimento e envie um RetrieveAndGenerate solicitação.
- Configure um agente e envie um InvokeAgent solicitação.

Você pode executar inferências com modelos básicos, modelos personalizados ou modelos provisionados. Para executar a inferência em um modelo personalizado, primeiro compre throughput provisionado para ele (para obter mais informações, consulte Aumente a capacidade de invocação do modelo com a taxa de transferência provisionada no Amazon Bedrock).

Use esses métodos para testar as respostas do modelo de base com diferentes prompts e parâmetros de inferência. Depois de explorar suficientemente esses métodos, você pode configurar seu aplicativo para executar a inferência de modelos chamando-os. APIs

Selecione um tópico para saber mais sobre como executar a inferência de modelos por meio desse método. Para saber mais sobre como usar agentes, consulte Automatize tarefas em seu aplicativo usando agentes conversacionais.

Tópicos

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

MetaLlama 2modelos

Influencie a geração de respostas com parâmetros de inferência