Processar vários prompts com inferência em lote - Amazon Bedrock

Processar vários prompts com inferência em lote

Com a inferência em lote, é possível enviar vários prompts e gerar respostas de forma assíncrona. A inferência em lote ajuda você a processar um grande número de solicitações de forma eficaz, enviando uma única solicitação e gerando as respostas em um bucket do Amazon S3. Depois de definir as entradas do modelo em arquivos que você cria, carregue os arquivos em um bucket do S3. Envie uma solicitação de inferência em lote e especifique o bucket do S3. Quando o trabalho for concluído, será possível recuperar os arquivos de saída do S3. É possível usar a inferência em lote para melhorar a performance da inferência de modelos em grandes conjuntos de dados.

nota

A inferência em lote não é compatível com modelos provisionados.

Consulte os seguintes recursos para obter informações gerais sobre a inferência em lote: