As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Processe vários prompts com inferência em lote
Com a inferência em lote, você pode enviar várias solicitações e gerar respostas de forma assíncrona. A inferência em lote ajuda você a processar um grande número de solicitações com eficiência enviando uma única solicitação e gerando as respostas em um bucket do Amazon S3. Depois de definir as entradas do modelo nos arquivos que você cria, você carrega os arquivos em um bucket do S3. Em seguida, você envia uma solicitação de inferência em lote e especifica o bucket do S3. Depois que o trabalho for concluído, você poderá recuperar os arquivos de saída do S3. Você pode usar a inferência em lote para melhorar a performance da inferência de modelos em grandes conjuntos de dados.
nota
A inferência em lote não é compatível com modelos provisionados.
Consulte os seguintes recursos para obter informações gerais sobre inferência em lote:
-
Para ver os preços da inferência em lote, consulte os preços do Amazon Bedrock
. -
Para ver as cotas para inferência em lote, consulte os endpoints e cotas do Amazon Bedrock no. Referência geral da AWS
Tópicos
- Regiões e modelos compatíveis para inferência em lote
- Pré-requisitos para inferência em lote
- Criar um trabalho de inferência em lote
- Monitore trabalhos de inferência em lote
- Interromper um trabalho de inferência em lote
- Veja os resultados de um trabalho de inferência em lote
- Exemplos de código para inferência em lote