在 Studio 中微调模型
微调过程在新数据集上训练已经预训练的模型,而无需从头开始训练。这个过程也称为转移学习,可以使用较小数据集和较短的训练时间生成准确模型。要对 JumpStart 基础模型进行微调,请导航至 Studio 用户界面中的模型详情卡。有关如何在 Studio 中打开 JumpStart 的更多信息,请参阅 在 Studio 中打开并使用 JumpStart。导航到您选择的模型详情卡后,选择右上角的训练。请注意,并非所有模型都有微调功能。
重要
有些基础模型要求在微调前明确接受最终用户许可协议 (EULA)。有关更多信息,请参阅 在 Amazon SageMaker Studio 中接受 EULA。
模型设置
在 Amazon SageMaker Studio 中使用预训练的 JumpStart 基础模型时,默认情况下会填充模型构件位置(Amazon S3 URI)。要编辑默认的 Amazon S3 URI,请选择输入模型构件位置。并非所有模型都支持更改模型构件的位置。
数据设置
在数据字段中,提供指向您的训练数据集位置的 Amazon S3 URI。默认的 Amazon S3 URI 指向一个示例训练数据集。要编辑默认的 Amazon S3 URI,请选择输入训练数据集并更改 URI。请务必查看 Amazon SageMaker Studio 中的模型详情卡,了解有关格式化训练数据的信息。
超参数
您可以自定义用于微调模型的训练作业的超参数。每个可微调模型的可用超参数因模型而异。
以下超参数在模型中很常见:
-
纪元 – 一个纪元是遍历整个数据集的一个周期。通过多个时间间隔完成一个批次,通过多个批次最终完成一个纪元。系统运行多个纪元,直到模型的准确性达到可接受的水平,或者说当错误率降至可接受的水平以下时。
-
学习率 – 各个纪元之间应该变化的值的数量。随着模型的优化,其内部权重将被调整,并检查错误率以确定模型是否有所改善。典型的学习率为 0.1 或 0.01,其中 0.01 是一个小得多的调整,可能会导致训练需要很长时间才能收敛,而 0.1 则要大得多,可能会导致训练过度。这是在训练模型时可能会调整的主要超参数之一。请注意,对于文本模型,小得多的学习率(BERT 为 5e-5)可以生成更准确的模型。
-
批次大小 – 对于每个间隔,从数据集中选择的用来发送到 GPU 的记录数,以进行训练。
查看 Studio 用户界面中模型详情卡的工具提示和其他信息,了解所选模型特定超参数的更多信息。
有关可用超参数的更多信息,请参阅 通常支持的微调超参数。
部署
为训练作业指定训练实例类型和输出构件位置。在微调 Studio 用户界面中,您只能选择与所选模型兼容的实例。默认的输出构件位置是 SageMaker 默认的存储桶。要更改输出构件位置,请选择输入输出构件位置,然后更改 Amazon S3 URI。
安全性
指定训练作业要使用的安全设置,包括 SageMaker 用于训练模型的 IAM 角色、训练作业是否应连接到虚拟私有云(VPC)以及确保数据安全的任何加密密钥。
其他信息
在其他信息字段中,您可以编辑训练作业名称。您还可以添加和删除键值对形式的标签,以帮助组织和分类您的微调训练作业。
提供微调配置信息后,选择提交。如果您选择微调的预训练基础模型要求在训练前明确同意最终用户许可协议 (EULA),则会在弹出窗口中提供 EULA。要接受 EULA 的条款,请选择接受。在下载或使用模型之前,您有责任查看和遵守任何适用的许可证条款,并确保您的使用场景可以接受这些条款。