本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
SageMaker HyperPod Recipes 支持向 GPU/trainium slurm 集群提交训练作业。在提交训练作业之前,请更新集群配置。使用以下方法之一更新集群配置:
-
修改
slurm.yaml
-
通过命令行将其覆盖
更新群集配置后,安装环境。
配置集群
要向 Slurm 集群提交训练作业,请指定特定于 Slurm 的配置。修改slurm.yaml
以配置 Slurm 集群。以下是 Slurm 集群配置的示例。您可以根据自己的训练需求修改此文件:
job_name_prefix: 'sagemaker-'
slurm_create_submission_file_only: False
stderr_to_stdout: True
srun_args:
# - "--no-container-mount-home"
slurm_docker_cfg:
docker_args:
# - "--runtime=nvidia"
post_launch_commands:
container_mounts:
- "/fsx:/fsx"
-
job_name_prefix
:指定任务名称前缀,以便轻松识别您向 Slurm 集群提交的内容。 -
slurm_create_submission_file_only
:将此配置设置为 True 以进行试运行,以帮助您进行调试。 -
stderr_to_stdout
:指定是否要将标准错误 (stderr) 重定向到标准输出 (stdout)。 -
srun_args
:自定义其他 srun 配置,例如排除特定的计算节点。有关更多信息,请参阅 srun 文档。 -
slurm_docker_cfg
: SageMaker HyperPod 配方启动器启动一个 Docker 容器来运行你的训练作业。您可以在此参数中指定其他 Docker 参数。 -
container_mounts
:为配方启动器指定要安装到容器中的卷,以便您的训练作业可以访问这些卷中的文件。