View a markdown version of this page

在 SageMaker AI 上自定义 Amazon Nova 模型 - Amazon Nova

在 SageMaker AI 上自定义 Amazon Nova 模型

您可以通过配方自定义 Amazon Nova 模型(包括增强版 Amazon Nova 2.0 模型),并在 SageMaker 上完成模型训练。这些配方支持监督式微调(SFT)和强化微调(RFT)之类的技术,同时提供全秩适配与低秩适配(LoRA)选项。

端到端自定义工作流程包括模型训练、模型评测和推理部署等阶段。SageMaker 上的这种模型自定义方法提供了更大的灵活性和控制力,可以微调其支持的 Amazon Nova 模型,精确地优化超参数,并实施 LoRA 参数高效微调(PEFT)、全秩 SFT、RFT 和持续预训练(CPT)等技术。

自定义方法

SageMaker 提供了两种用于自定义 Amazon Nova 模型的方法:

基于 UI 的方法:可通过简洁的引导式界面自定义 Amazon Nova 模型。该方法提供包含训练、评测与部署的端到端工作流,无需编写代码。基于 UI 的体验适合快速实验、概念验证开发以及偏好可视化工作流的用户。

基于代码的方法:使用 SageMaker Python SDK、Nova SDK 和训练配方,以编程方式自定义模型。该方法具备更高灵活性,支持配置高级超参数、集成 CI/CD 管道并实现训练工作流自动化。建议将基于代码的方法用于生产工作负载、复杂的自定义需求以及具备成熟 MLOps 实践的团队。

方法 适用于 主要优势
基于 UI 实验验证、原型开发、快速迭代 配置简便,流程引导,无需编码
基于代码 生产环境、自动化、高级配置 高度灵活,管道集成,版本控制

自定义平台

AWS 提供三个用于自定义 Amazon Nova 模型的平台,每个平台针对不同的使用案例和要求而设计:

Amazon Bedrock:提供最简单、最快速的模型自定义路径,设置最少。Bedrock 自动处理所有基础设施管理,让您专注于数据和使用案例。当您需要最快获得价值且偏好全托管体验时,该平台是理想选择。

SageMaker 训练作业:提供全托管环境,用于自定义 Amazon Nova 模型,无需创建或维护任何集群。该服务会自动处理所有基础设施预置、扩展和资源管理,使您能够专注于配置训练参数和提交作业。该平台兼顾易用性与灵活性,支持参数高效微调(PEFT)、全秩微调和强化微调(RFT)等技术。

SageMaker HyperPod:专为大规模分布式训练提供专用环境,需创建并管理包含受限实例组(RIG)的 EKS 集群。该平台在配置训练环境方面提供最大的灵活性,支持专用 GPU 实例和集成的适用于 Lustre 的 Amazon FSx 存储,因此特别适合高级分布式训练场景、持续模型开发以及企业级自定义工作负载。

平台 复杂度 弹性 适用于
Amazon Bedrock 最低 标准 最快自定义,最少设置
SageMaker 训练作业 兼顾灵活性与易用性
SageMaker HyperPod 最高 最大值 大规模分布式训练,企业级工作负载
注意

如果为 Amazon Nova 模型自定义训练作业提供 KMS 密钥,用于对 Amazon 拥有的输出 S3 存储桶进行加密:

  • 在调用后续的迭代训练作业,或在调用 Amazon Bedrock 的 CreateCustomModel API 以使用该加密模型时,必须提供相同的 KMS 密钥。

  • 调用 CreateTrainingJob API 的身份(而非执行角色)必须具备 KMS 密钥策略中定义的以下权限:CreateGrantRetireGrantEncryptGenerateDataKey