为不同类型的实例本地存储管理存储路径 - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

为不同类型的实例本地存储管理存储路径

在 SageMaker AI 中为训练作业设置存储路径时,请考虑以下几点。

  • 如果要将分布式训练的训练构件存储在 /opt/ml/output/data 目录中,则必须通过模型定义或训练脚本正确地追加子目录或者为这些构件使用唯一的文件名。如果未正确配置子目录和文件名,则所有分布式训练工件可能都会在 Amazon S3 中将输出写入相同输出路径下的相同文件名。

  • 如果您使用自定义训练容器,请务必安装有助于为SageMaker 训练作业设置环境的 SageMaker 培训工具包。否则,您必须在 Dockerfile 中明确指定环境变量。有关更多信息,请参阅使用自己的算法和模型创建容器

  • 使用带有NVMeSSD卷的 ML 实例时, SageMaker AI 不会预配置 Amazon EBS gp2 存储。可用存储空间固定为 NVMe-type 实例的存储容量。 SageMaker AI 为训练数据集、检查点、模型工件和输出配置存储路径,以使用实例存储的全部容量。例如,实例存储NVMe类型为-type 的 ML 实例系列包括ml.p4dml.g4dn、和。ml.g5使用带有 “EBS仅限存储” 选项且不带实例存储的 ML 实例时,必须通过 SageMaker AI 估算器类中的volume_size参数定义EBS卷的大小(或者VolumeSizeInGB如果您使用的是)。ResourceConfig API例如,使用EBS卷的 ML 实例系列包括ml.c5ml.p2。要查找实例类型及其实例存储类型和卷,请参阅 Amazon EC2 实例类型

  • SageMaker 训练作业的默认路径将挂载到 Amazon EBS NVMe SSD 卷或机器学习实例的卷上。在调整训练脚本以适应 SageMaker AI 时,请确保使用上一个主题中列出的默认路径SageMaker AI 环境变量和训练存储位置的默认路径。我们建议您将 /tmp 目录用作暂存空间,以便在训练期间临时存储任何大型对象。这意味着不得使用装载到为系统分配的小磁盘空间的目录,例如/user/home,以免 out-of-space出现错误。

要了解更多信息,请参阅 AWS 机器学习博客 “为你的 Amazon SageMaker 训练作业选择最佳数据源”,该博客将进一步讨论数据源和输入模式的案例研究和性能基准。