Amazon Bedrock 推理

在完成 Amazon Nova 模型的训练与测试后，即可将其部署到 Amazon Bedrock 以实现生产级规模的推理。部署流程包括：通过 CreateCustomModel API 创建 Amazon Bedrock 模型，将模型构件从托管的 Amazon S3 存储桶导出到该模型；待模型状态变为 ACTIVE 后，配置支持按需推理或预置吞吐量推理的端点。

在 SageMaker 中创建自定义模型后，即可使用 CreateCustomModel API 将其从 SageMaker 托管暂存区部署到 Amazon Bedrock 以运行推理。然后，您可以使用 CreateCustomModelDeployment 为参数高效微调（PEFT）模型创建 OD 推理端点或设置预置吞吐量推理。您还可以为全秩自定义模型设置预置吞吐量推理。

您也可以使用 Amazon Nova Forge SDK 部署自定义的 Amazon Nova 模型。Amazon Nova Forge SDK 提供简化的操作流程，支持从训练作业或 S3 模型检查点中提取相关信息，并将其发布到 Amazon Bedrock。有关更多信息，请参阅 Amazon Nova Forge SDK。

有关为自定义模型设置 Amazon Bedrock 推理的详细步骤，请参阅将自定义 Amazon Nova 模型部署到 Amazon Bedrock。

以下章节将详细介绍自定义模型上的按需推理。

自定义模型中的按需型推理

通过按需型 (OD) 推理，您可以在自定义 Amazon Nova 模型上运行推理，而无需维护预置吞吐量端点。这有助于优化成本，并有效地进行扩展。使用按需型推理时，您将根据使用量付费，使用量以输入和输出的 Token 数计量。

兼容性要求

应满足以下兼容性要求：

Amazon Nova Pro、Lite 及 Micro 的自定义理解模型支持 OD 推理。Nova 自定义内容生成模型不支持 OD 推理。
2025 年 7 月 16 日后训练的 Amazon Nova 自定义理解模型支持 OD 推理。2025 年 7 月 16 日前训练的自定义模型与 OD 推理不兼容。
Amazon Bedrock 自定义：使用 Amazon Bedrock 自定义进行自定义的模型，以及使用 Amazon Bedrock 从教师式模型中蒸馏的学生式模型都支持 OD 推理。
SageMaker AI 自定义：对于在 SageMaker AI 中进行自定义的模型，只有模型托管在 Amazon Bedrock 上时才支持 OD 推理功能，且仅限于参数高效微调 (PEFT) 模型。这包括直接偏好优化 + PEFT。全秩微调模型不支持 OD 推理。

模型训练和推理

2025 年 7 月 16 日后，当使用 PEFT 在 Amazon Bedrock 或 SageMaker AI 上训练新的自定义 Amazon Nova Pro、Lite 或 Micro 模型时，该模型将自动与预置的按需型推理选项兼容。您可以在部署模型时选择首选的推理方法。

要在 2025 年 7 月 16 日后训练的模型中使用 OD 推理，需完成以下步骤：

使用 Amazon Bedrock 自定义 API 或 SageMaker AI 定制 API 创建新的微调任务。
使用 CreateCustomModel API 将新训练的模型部署至 Amazon Bedrock。
使用 CustomModelDeployment API 进行部署，从而进行按需型推理。

速率限制

以下的每分钟请求数 (RPM) 以及每分钟 Token 数 (TPM) 限制适用于按需型推理请求：

Base Model for Custom Model	RPM per Custom Model Deployment	TPM per Custom Model Deployment
Nova 2 Lite	2,000	4,000,000

要详细了解 Amazon Nova 的可用配额，请参阅Amazon Nova 的配额。

延迟

调用基础模型与适配器时，端到端延迟（即首词元响应时间 TTFT）预计会有 20% 到 55% 的差异。确切的延迟值因模型大小而异，并与行业标准一致。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

Amazon Nova Forge 滥用检测

部署自定义模型进行按需型推理