Processar vários prompts com inferência em lote
Com a inferência em lote, é possível enviar vários prompts e gerar respostas de forma assíncrona. A inferência em lote ajuda você a processar um grande número de solicitações de forma eficaz, enviando uma única solicitação e gerando as respostas em um bucket do Amazon S3. Depois de definir as entradas do modelo em arquivos que você cria, carregue os arquivos em um bucket do S3. Envie uma solicitação de inferência em lote e especifique o bucket do S3. Quando o trabalho for concluído, será possível recuperar os arquivos de saída do S3. É possível usar a inferência em lote para melhorar a performance da inferência de modelos em grandes conjuntos de dados.
nota
A inferência em lote não é compatível com modelos provisionados.
Consulte os seguintes recursos para obter informações gerais sobre a inferência em lote:
-
Para ver os preços da inferência em lote, consulte os Preços do Amazon Bedrock
. -
Para ver as cotas de inferência em lote, consulte Amazon Bedrock endpoints and quotas no Referência geral da AWS.
Tópicos
- Regiões e modelos compatíveis com inferência em lote
- Pré-requisitos para inferência em lote
- Criar um trabalho de inferência em lote
- Monitorar trabalhos de inferência em lote
- Interromper um trabalho de inferência em lote
- Visualizar os resultados de um trabalho de inferência em lote
- Exemplos de código para inferência em lote