使用批量推理处理多个提示

使用批量推理，您可以提交多个提示并异步生成响应。您可以使用InvokeModel或 Converse API 格式来格式化输入数据。批量推理通过发送单个请求并在 Amazon S3 存储桶中生成响应，帮助您高效地处理大量请求。在您创建的文件中定义模型输入后，您需要将相应文件上传到 S3 存储桶。然后，您需要提交批量推理请求并指定 S3 存储桶。作业完成后，您可以从 S3 检索输出文件。您可以使用批量推理来提高对大型数据集的模型推理性能。

注意

预置模型不支持批量推理。

注意

Batch 推理不支持工具调用（函数调用）或结构化输出（response_format）。输入 JSONL 文件中的每条记录都是独立处理的，无需多圈交互，因此无法使用需要模型和客户端之间来回交换的功能。

有关批量推理的一般信息，请参阅以下资源：

要查看批量推理的定价，请参阅 Amazon Bedrock 定价。
要查看批量推理的配额，请参阅 AWS 一般参考中的 Amazon Bedrock endpoints and quotas。
要在批量推理作业完成或状态更改而不是轮询时接收通知，请参阅使用亚马逊监控 Amazon Bedrock 作业状态的变化 EventBridge。

主题

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

预留、标准、优先和弹性等级

支持的区域和模型