为 Amazon Bedrock 型号购买预配置吞吐量 - Amazon Bedrock

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

为 Amazon Bedrock 型号购买预配置吞吐量

购买模型的预配置吞吐量时,需要指定其承诺级别和要分配的模型单位数量 (MUs)。有关 MU 配额,请参阅中的 Amazon Bedrock 终端节点和配额。 AWS 一般参考您可以分配MUs给预配置吞吐量的数量取决于预配置吞吐量的承诺期限:

  • 默认情况下,您的账户为您提供 2 MUs 个供您在预配置吞吐量之间进行分配,无需承诺。

  • 如果您要使用承诺购买预配置吞吐量,则必须先访问AWS 支持中心,请求MUs您的账户在预配置吞吐量与承诺之间进行分配。您的请求获得批准后,您可以通过承诺购买预配置吞吐量。

注意

购买预配置吞吐量后,只有选择自定义型号,才能更改关联的模型。您可以将关联的模型更改为以下模型之一:

  • 其自定义基础模型。

  • 另一个源自同一个基础模型的自定义模型。

要了解如何为模型购买预置吞吐量,请选择与您选择的方法相对应的选项卡,然后按照以下步骤操作:

Console
  1. AWS Management Console 使用具有 Amazon Bedrock 权限的IAM角色登录,然后通过以下网址打开 Amazon Bedrock 控制台。https://console.aws.amazon.com/bedrock/

  2. 在左侧导航窗格的 “评估和部署” 下选择 “预配置吞吐量”。

  3. 预配置吞吐量部分,选择购买预配置吞吐量。

  4. 要查看预配置吞吐量详细信息部分,请执行以下操作:

    1. 预配置吞吐量名称字段中,输入预配置吞吐量的名称。

    2. 选择模型下,选择基础模型提供者或自定义模型类别。然后选择要为其预配置吞吐量的模型。

      注意

      要查看无需承诺即可购买预配置吞吐量的基本型号,请参阅预配置吞吐量支持的区域和型号

      在该 AWS GovCloud (US) 地区,您只能为自定义模型购买预置吞吐量,无需承诺。

    3. (可选)要将标签与您的预配置吞吐量相关联,请展开标签部分并选择添加新标签。有关更多信息,请参阅 标记 Amazon Bedrock 资源

  5. 在 “承诺期限和模型单位” 部分,请执行以下操作:

    1. 选择承诺期限部分,选择您要承诺使用预配置吞吐量的时间。

    2. 模型单位字段中,输入所需的模型单位数 (MUs)。如果您要使用承诺预配型号,则必须先访问AWS 支持中心,申请增加可购买MUs的数量。

  6. 估算购买摘要下,查看估算成本。

  7. 选择购买预调配吞吐量

  8. 查看所显示的备注,并通过选中复选框确认承诺期限和价格。然后选择确认购买

  9. 控制台显示预配置吞吐量概述页面。预配置吞吐量表中的预配置吞吐量的状态变为正在创建。预配置吞吐量创建完成后,状态变为服务中。如果更新失败,则状态变为 “失败”。

API

要购买预配置吞吐量,请使用 Amazon Bedrock 控制平面终端节点发送CreateProvisionedModelThroughput请求(有关请求和响应格式以及字段详情,请参阅链接)。

注意

要查看无需承诺即可购买预配置吞吐量的基本型号,请参阅预配置吞吐量支持的区域和型号

在该 AWS GovCloud (US) 地区,您只能为自定义模型购买预置吞吐量,无需承诺。

下表简要描述了参数和请求正文(有关详细信息和请求结构,请参阅CreateProvisionedModelThroughput 请求语法):

Variable 必填? 应用场景
modelId 要指定基本型号 ID 或ARN用于购买预配置吞吐量,或自定义模型名称或 ARN
modelUnits 指定要购买的模型单位数量 (MUs)。要增加您可以购买MUs的数量,请访问AWS 支持中心申请增加您可以购买MUs的数量
provisionedModelName 为预配置吞吐量指定名称
commitmentDuration 指定提交预配置吞吐量的持续时间。省略此字段可选择无承诺定价
标签 将标签与您的预配置吞吐量相关联
clientRequestToken 为了防止重复请求

响应会返回provisionedModelArn一个可用作模型modelId内推断的。要检查预配置吞吐量何时可供使用,请发送GetProvisionedModelThroughput请求并检查状态是否为InService。如果更新失败,则其状态将为FailedGetProvisionedModelThroughput响应中将包含failureMessage

参见代码示例