本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
启用训练
添加要共享的模型时,您可以选择提供训练环境,并允许组织中的协作者训练共享的模型。
注意
如果您要添加表格模型,则还需要指定列格式和目标列以启用训练。
提供模型的基本详细信息后,您需要配置用于训练模型的训练作业的设置。这包括指定容器环境、代码脚本、数据集、输出位置和其他各种参数,以控制训练作业的执行方式。要配置训练作业设置,请按照以下步骤操作:
-
添加用于模型训练的容器。您可以选择用于现有训练作业的容器,在 Amazon ECR 中自带容器或使用 Amazon A SageMaker I 深度学习容器。
-
添加环境变量。
-
提供训练脚本位置。
-
提供脚本模式入口点。
-
为训练期间生成的模型构件提供 Amazon S3 URI。
-
向默认训练数据集提供 Amazon S3 URI。
-
提供模型输出路径。模型输出路径应为训练生成的任何模型项目的 Amazon S3 URI 路径。 SageMaker AI 将模型工件作为单个压缩的 TAR 文件保存到 Amazon S3 中。
-
提供验证数据集,用于在训练期间评估您的模型。验证数据集必须包含与训练数据集相同的列数和相同的特征标题。
-
开启网络隔离。网络隔离可隔离模型容器,这样就无法通过模型容器进行入站或出站网络调用。
-
提供培训渠道, SageMaker AI 可通过这些渠道访问您的数据。例如,您可以指定名为
train
或test
的输入通道。对于每个通道,请指定通道名称以及您数据位置的 URI。选择浏览以搜索 Amazon S3 位置。 -
提供超参数。添加任意超参数,合作者在训练期间应使用这些参数进行实验。为这些超参数提供一系列有效值。此范围用于训练作业超参数验证。您可以根据超参数的数据类型定义范围。
-
选择一个实例类型。对于大批量训练,建议使用具有更多内存的 GPU 实例。有关各 AWS 区域 SageMaker 训练实例的完整列表,请参阅 Amazon A SageMaker I 定价中的按需定价表。
-
提供指标。通过为训练作业所监控的各个指标指定名称和正则表达式,定义训练作业的指标。设计正则表达式以捕获您的算法发出的指标值。例如,指标
loss
可以具有正则表达式"Loss =(.*?);"
。