本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
提高吞吐量,提高弹性和处理能力
吞吐量由模型处理和返回的输入和输出的数量和速率来定义。当您在 Amazon Bedrock 中调用模型或使用 Amazon Bedrock 中的资源调用模型时,模型的吞吐量将受到配额的限制。配额取决于模型和区域,包括以下值:
-
每分钟处理的请求数-每分钟处理的模型调用请求数。配额考虑了InvokeModel、InvokeModelWithResponseStream、Converse 和ConverseStreamAPI请求的总和。
-
每分钟处理的令牌数-每分钟处理的代币数量。配额考虑为InvokeModel、InvokeModelWithResponseStream、C onverse 或ConverseStreamAPI请求处理的代币总和。
Amazon Bedrock 提供以下类型的吞吐量:
-
按需吞吐量-吞吐量的标准选项。涉及在特定 AWS 区域环境中调用模型。配额在 Amazon Bedrock 终端节点中定义,配额在。 AWS 一般参考
-
按需跨区域推理 — 涉及调用推理配置文件,这是对配置的按需资源池的抽象。 AWS 区域推理配置文件可以将源自您的源区域的推理请求路由到池中配置的另一个区域。使用跨区域推理可以跨推理配置文件中定义的区域动态路由模型调用请求,从而提高吞吐量并提高弹性。用户流量、需求和资源利用率中的路由因素。有关更多信息,请参阅 通过跨区域推理提高弹性。
-
预配置吞吐量 — 涉及为特定 AWS 区域模型购买专用吞吐量级别。预配置吞吐量配额取决于您购买的模型单位数量。有关更多信息,请参阅 使用 Amazon Bedrock 中的预配置吞吐量增加模型调用容量。
选择一个主题,详细了解提高吞吐量的选项: