在 SageMaker AI 上自定义 Amazon Nova 模型
您可以通过配方自定义 Amazon Nova 模型(包括增强版 Amazon Nova 2.0 模型),并在 SageMaker 上完成模型训练。这些配方支持监督式微调(SFT)和强化微调(RFT)之类的技术,同时提供全秩适配与低秩适配(LoRA)选项。
端到端自定义工作流程包括模型训练、模型评测和推理部署等阶段。SageMaker 上的这种模型自定义方法提供了更大的灵活性和控制力,可以微调其支持的 Amazon Nova 模型,精确地优化超参数,并实施 LoRA 参数高效微调(PEFT)、全秩 SFT、RFT 和持续预训练(CPT)等技术。
自定义方法
SageMaker 提供了两种用于自定义 Amazon Nova 模型的方法:
基于 UI 的方法:可通过简洁的引导式界面自定义 Amazon Nova 模型。该方法提供包含训练、评测与部署的端到端工作流,无需编写代码。基于 UI 的体验适合快速实验、概念验证开发以及偏好可视化工作流的用户。
基于代码的方法:使用 SageMaker Python SDK、Nova SDK 和训练配方,以编程方式自定义模型。该方法具备更高灵活性,支持配置高级超参数、集成 CI/CD 管道并实现训练工作流自动化。建议将基于代码的方法用于生产工作负载、复杂的自定义需求以及具备成熟 MLOps 实践的团队。
| 方法 | 适用于 | 主要优势 |
|---|---|---|
| 基于 UI | 实验验证、原型开发、快速迭代 | 配置简便,流程引导,无需编码 |
| 基于代码 | 生产环境、自动化、高级配置 | 高度灵活,管道集成,版本控制 |
自定义平台
AWS 提供三个用于自定义 Amazon Nova 模型的平台,每个平台针对不同的使用案例和要求而设计:
Amazon Bedrock:提供最简单、最快速的模型自定义路径,设置最少。Bedrock 自动处理所有基础设施管理,让您专注于数据和使用案例。当您需要最快获得价值且偏好全托管体验时,该平台是理想选择。
SageMaker 训练作业:提供全托管环境,用于自定义 Amazon Nova 模型,无需创建或维护任何集群。该服务会自动处理所有基础设施预置、扩展和资源管理,使您能够专注于配置训练参数和提交作业。该平台兼顾易用性与灵活性,支持参数高效微调(PEFT)、全秩微调和强化微调(RFT)等技术。
SageMaker HyperPod:专为大规模分布式训练提供专用环境,需创建并管理包含受限实例组(RIG)的 EKS 集群。该平台在配置训练环境方面提供最大的灵活性,支持专用 GPU 实例和集成的适用于 Lustre 的 Amazon FSx 存储,因此特别适合高级分布式训练场景、持续模型开发以及企业级自定义工作负载。
| 平台 | 复杂度 | 弹性 | 适用于 |
|---|---|---|---|
| Amazon Bedrock | 最低 | 标准 | 最快自定义,最少设置 |
| SageMaker 训练作业 | 中 | 高 | 兼顾灵活性与易用性 |
| SageMaker HyperPod | 最高 | 最大值 | 大规模分布式训练,企业级工作负载 |
注意
如果为 Amazon Nova 模型自定义训练作业提供 KMS 密钥,用于对 Amazon 拥有的输出 S3 存储桶进行加密:
-
在调用后续的迭代训练作业,或在调用 Amazon Bedrock 的 CreateCustomModel API 以使用该加密模型时,必须提供相同的 KMS 密钥。
-
调用
CreateTrainingJobAPI 的身份(而非执行角色)必须具备 KMS 密钥策略中定义的以下权限:CreateGrant、RetireGrant、Encrypt、GenerateDataKey。