Processe vários prompts com inferência em lote - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Processe vários prompts com inferência em lote

Com a inferência em lote, você pode enviar várias solicitações e gerar respostas de forma assíncrona. A inferência em lote ajuda você a processar um grande número de solicitações com eficiência enviando uma única solicitação e gerando as respostas em um bucket do Amazon S3. Depois de definir as entradas do modelo nos arquivos que você cria, você carrega os arquivos em um bucket do S3. Em seguida, você envia uma solicitação de inferência em lote e especifica o bucket do S3. Depois que o trabalho for concluído, você poderá recuperar os arquivos de saída do S3. Você pode usar a inferência em lote para melhorar a performance da inferência de modelos em grandes conjuntos de dados.

nota

A inferência em lote não é compatível com modelos provisionados.

Consulte os seguintes recursos para obter informações gerais sobre inferência em lote: