选择您的 Cookie 首选项

我们使用必要 Cookie 和类似工具提供我们的网站和服务。我们使用性能 Cookie 收集匿名统计数据,以便我们可以了解客户如何使用我们的网站并进行改进。必要 Cookie 无法停用,但您可以单击“自定义”或“拒绝”来拒绝性能 Cookie。

如果您同意,AWS 和经批准的第三方还将使用 Cookie 提供有用的网站功能、记住您的首选项并显示相关内容,包括相关广告。要接受或拒绝所有非必要 Cookie,请单击“接受”或“拒绝”。要做出更详细的选择,请单击“自定义”。

在 HyperPod Slurm 上运行训练作业

聚焦模式
在 HyperPod Slurm 上运行训练作业 - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

SageMaker HyperPod Recipes 支持向 GPU/trainium slurm 集群提交训练作业。在提交训练作业之前,请更新集群配置。使用以下方法之一更新集群配置:

  • 修改 slurm.yaml

  • 通过命令行将其覆盖

更新群集配置后,安装环境。

配置集群

要向 Slurm 集群提交训练作业,请指定特定于 Slurm 的配置。修改slurm.yaml以配置 Slurm 集群。以下是 Slurm 集群配置的示例。您可以根据自己的训练需求修改此文件:

job_name_prefix: 'sagemaker-' slurm_create_submission_file_only: False stderr_to_stdout: True srun_args: # - "--no-container-mount-home" slurm_docker_cfg: docker_args: # - "--runtime=nvidia" post_launch_commands: container_mounts: - "/fsx:/fsx"
  1. job_name_prefix:指定任务名称前缀,以便轻松识别您向 Slurm 集群提交的内容。

  2. slurm_create_submission_file_only:将此配置设置为 True 以进行试运行,以帮助您进行调试。

  3. stderr_to_stdout:指定是否要将标准错误 (stderr) 重定向到标准输出 (stdout)。

  4. srun_args:自定义其他 srun 配置,例如排除特定的计算节点。有关更多信息,请参阅 srun 文档。

  5. slurm_docker_cfg: SageMaker HyperPod 配方启动器启动一个 Docker 容器来运行你的训练作业。您可以在此参数中指定其他 Docker 参数。

  6. container_mounts:为配方启动器指定要安装到容器中的卷,以便您的训练作业可以访问这些卷中的文件。

本页内容

隐私网站条款Cookie 首选项
© 2025, Amazon Web Services, Inc. 或其附属公司。保留所有权利。