亚马逊 SageMaker HyperPod 发行说明 - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

亚马逊 SageMaker HyperPod 发行说明

以下发行说明跟踪了 Amazon 的最新更新 SageMaker HyperPod。这些发行说明描述了自上一版本以来所做的新功能、修复和改进。

SageMaker HyperPod 发布说明:2024 年 9 月 10 日

SageMaker HyperPod 为发布以下内容使用 Amazon 编排 SageMaker HyperPod 集群 EKS

新功能

SageMaker HyperPod DLAMI获取 Amazon EKS 支持

以下是在 For SageMaker HyperPod DLAMIs Ama EKS zon 支持中预安装或预配置的软件包的汇总列表。每个版本DLAMIs都基于亚马逊 Linux 2 (AL2) 构建,支持特定的 Kubernetes 版本。

AMIs包括以下内容:

Deep Learning EKS AMI 1.28
  • 亚马逊EKS组件

    • Kubernetes 版本:1.28.11

    • 容器版本:1.7.20

    • Runc 版本:1.1.11

    • AWS IAM身份验证器:0.6.21

  • 亚马逊SSM代理:3.3.380

  • Linux 内核:5.10 .223

  • OSSNVIDIA驱动程序:535.18 3.01

  • NVIDIACUDA: 12.2

  • EFA安装程序:1.32.0

  • GDRCopy: 2.4

  • NVIDIA容器工具包:1.16.1

  • AWS OFINCCL: 1.9. 1

  • aws-neuronx-tools: 2.18 .3.0-1

  • aws-neuronx-runtime-lib: 2.21.41.0

  • aws-neuronx-oci-hook: 2.4.4. 0-1

  • aws-neuronx-dkms: 2.17.17 .0

  • aws-neuronx-collectives: 2.21.46.0

Deep Learning EKS AMI 1.29
  • 亚马逊EKS组件

    • Kubernetes 版本:1.29.6

    • 容器版本:1.7.20

    • Runc 版本:1.1.11

    • AWS IAM身份验证器:0.6.21

  • 亚马逊SSM代理:3.3.380

  • Linux 内核:5.10 .223

  • OSSNvidia 驱动程序:535.18 3.01

  • NVIDIACUDA: 12.2

  • EFA安装程序:1.32.0

  • GDRCopy: 2.4

  • Nvidia 容器工具包:1.16.1

  • AWS OFINCCL: 1.9. 1

  • aws-neuronx-tools: 2.18 .3.0-1

  • aws-neuronx-runtime-lib: 2.21.41.0

  • aws-neuronx-oci-hook: 2.4.4. 0-1

  • aws-neuronx-dkms: 2.17.17 .0

  • aws-neuronx-collectives: 2.21.46.0

Deep Learning EKS AMI 1.30
  • 亚马逊EKS组件

    • Kubernetes 版本:1.30.2

    • 容器版本:1.7.20

    • Runc 版本:1.1.11

    • AWS IAM身份验证器:0.6.21

  • 亚马逊SSM代理:3.3.380

  • Linux 内核:5.10 .223

  • OSSNvidia 驱动程序:535.18 3.01

  • NVIDIACUDA: 12.2

  • EFA安装程序:1.32.0

  • GDRCopy: 2.4

  • Nvidia 容器工具包:1.16.1

  • AWS OFINCCL: 1.9. 1

  • aws-neuronx-tools: 2.18 .3.0-1

  • aws-neuronx-runtime-lib: 2.21.41.0

  • aws-neuronx-oci-hook: 2.4.4. 0-1

  • aws-neuronx-dkms: 2.17.17 .0

  • aws-neuronx-collectives: 2.21.46.0

SageMaker HyperPod DLAMI获得 Slurm 支持

HyperPod 服务团队通过SageMaker HyperPod DLAMI分发软件补丁。有关Slurm最新版本 HyperPod DLAMI的以下详细信息。

注意

要查找有关使用最新版本更新现有 HyperPod 集群的说明 HyperPod DLAMI,请参阅更新集群的 SageMaker HyperPod 平台软件

  • 已安装NVIDIA驱动程序 v550.90.07

  • 已安装EFA驱动程序 v2.10

  • 安装了最新版本的 Ne AWS uron SDK

    • aws-neuronx-collectives: v2.21.4 6.0

    • aws-neuronx-dkms: v2.17.17 .0

    • aws-neuronx-oci-hook: v2.4. 4.0

    • aws-neuronx-runtime-lib: v2.21.4 1.0

    • aws-neuronx-tools: v2.18. 3.0

SageMaker HyperPod 发布说明:2024 年 8 月 20 日

SageMaker HyperPod 为发布以下内容使用 Slurm 编排 SageMaker HyperPod 集群

新功能

  • 增强了SageMaker HyperPod 自动恢复功能,扩展了与 Generic () 连接的 Slurm 节点的弹性功能。RESources GRES

    通用资源 (GRES) 附加到 Slurm 节点时,Slurm 通常不允许更改节点分配,例如替换节点,因此不允许恢复失败的作业。除非明确禁止,否则 HyperPod自动恢复功能会自动将任何与已启用节点关联的错误作业重新排队。GRES此过程包括停止作业,将其放回作业队列中,然后从头开始重新启动作业。

其他改动

  • 预先包装slurmrestd在. SageMaker HyperPod AMI

  • ResumeTimeout和的默认值UnkillableStepTimeout从 60 秒更改为 300 秒,slurm.conf以提高系统响应能力和作业处理能力。

  • 对NVIDIA数据中心GPU管理器 (DCGM) 和NVIDIA系统管理界面 (nvidia-smi) 的运行状况检查进行了细微改进。

错误修复

  • HyperPod 自动恢复插件可以使用空闲节点来恢复作业。

升级步骤

  • 运行以下命令调用UpdateClusterSoftwareAPI以使用最新版本更新现有 HyperPod集群 HyperPod DLAMI。要查找更多说明,请参阅更新集群的 SageMaker HyperPod 平台软件

    重要

    在运行它之前,请先备份您的工作API。修补过程会用更新的根卷替换根卷AMI,这意味着您之前存储在实例根卷中的数据将丢失。请务必将实例根卷中的数据备份到 Amazon S3 或 Amazon for Lustre。FSx有关更多信息,请参阅 使用提供的备份脚本 SageMaker HyperPod

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    注意

    请注意,您应该运行 AWS CLI 命令来更新您的 HyperPod 集群。目前无法通过 SageMaker HyperPod 控制台 UI 更新 HyperPod 软件。

SageMaker HyperPod 发布说明:2024 年 6 月 20 日

SageMaker HyperPod 为发布以下内容使用 Slurm 编排 SageMaker HyperPod 集群

新功能

  • 增加了向 SageMaker HyperPod 集群实例附加额外存储空间的新功能。借助此功能,您可以在集群创建或更新过程中,通过 SageMaker HyperPod 控制台或CreateCluster和在实例组配置级别配置补充存储UpdateClusterAPIs。额外的EBS卷将连接到 SageMaker HyperPod 集群中的每个实例并挂载到/opt/sagemaker。要了解有关在 SageMaker HyperPod 集群中实现它的更多信息,请参阅以下页面上更新的文档。

    请注意,您需要更新 HyperPod 群集软件才能使用此功能。修补 HyperPod 群集软件后,您可以通过添加新的实例组将此功能用于在 2024 年 6 月 20 日之前创建的现有 SageMaker HyperPod 集群。此功能对于 2024 年 6 月 20 日之后创建的任何 SageMaker HyperPod 集群完全有效。

升级步骤

  • 运行以下命令调用UpdateClusterSoftwareAPI以使用最新版本更新现有 HyperPod集群 HyperPod DLAMI。要查找更多说明,请参阅更新集群的 SageMaker HyperPod 平台软件

    重要

    在运行它之前,请先备份您的工作API。修补过程会用更新的根卷替换根卷AMI,这意味着您之前存储在实例根卷中的数据将丢失。请务必将实例根卷中的数据备份到 Amazon S3 或 Amazon for Lustre。FSx有关更多信息,请参阅 使用提供的备份脚本 SageMaker HyperPod

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    注意

    请注意,您应该运行 AWS CLI 命令来更新您的 HyperPod 集群。目前无法通过 SageMaker HyperPod 控制台 UI 更新 HyperPod 软件。

SageMaker HyperPod 发布说明:2024 年 4 月 24 日

SageMaker HyperPod 为发布以下内容使用 Slurm 编排 SageMaker HyperPod 集群

错误修复

SageMaker HyperPod 发布说明:2024 年 3 月 27 日

SageMaker HyperPod 为发布以下内容使用 Slurm 编排 SageMaker HyperPod 集群

HyperPod 软件补丁

HyperPod 服务团队通过SageMaker HyperPod DLAMI分发软件补丁。请参阅以下有关最新版本的详细信息 HyperPod DLAMI。

  • 在此版本中 HyperPod DLAMI,Slurm 由REST服务 (slurmestd) 和JSONYAML、和JWT支持构建。

  • Slurm 升级到 v23.11.3

升级步骤

  • 运行以下命令调用UpdateClusterSoftwareAPI以使用最新版本更新现有 HyperPod集群 HyperPod DLAMI。要查找更多说明,请参阅更新集群的 SageMaker HyperPod 平台软件

    重要

    在运行它之前,请先备份您的工作API。修补过程会用更新的根卷替换根卷AMI,这意味着您之前存储在实例根卷中的数据将丢失。请务必将实例根卷中的数据备份到 Amazon S3 或 Amazon for Lustre。FSx有关更多信息,请参阅 使用提供的备份脚本 SageMaker HyperPod

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    注意

    请注意,您应该运行 AWS CLI 命令来更新您的 HyperPod 集群。目前无法通过 SageMaker HyperPod 控制台 UI 更新 HyperPod 软件。

改进

  • 将自动恢复服务超时时间延长至 60 分钟。

  • 改进了实例替换流程,使其不重启 Slurm 控制器。

  • 改进了运行生命周期脚本时产生的错误消息,例如实例启动时的下载错误和实例运行状况检查错误。

错误修复

  • 修复了 chrony 服务中导致时间同步出现问题的错误。

  • 修复了解析slurm.conf错误。

  • 修复了NVIDIAgo-dcgm库的问题。

SageMaker HyperPod 发布说明:2024 年 3 月 14 日

SageMaker HyperPod 为发布以下内容使用 Slurm 编排 SageMaker HyperPod 集群

HyperPod DLAMI适用于 Slurm 软件补丁

HyperPod 服务团队通过SageMaker HyperPod DLAMI分发软件补丁。请参阅以下有关最新版本的详细信息 HyperPod DLAMI。

升级步骤

  • 运行以下命令调用UpdateClusterSoftwareAPI以使用最新版本更新现有 HyperPod集群 HyperPod DLAMI。要查找更多说明,请参阅更新集群的 SageMaker HyperPod 平台软件

    重要

    在运行它之前,请先备份您的工作API。修补过程会用更新的根卷替换根卷AMI,这意味着您之前存储在实例根卷中的数据将丢失。请务必将实例根卷中的数据备份到 Amazon S3 或 Amazon for Lustre。FSx有关更多信息,请参阅 使用提供的备份脚本 SageMaker HyperPod

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    注意

    请注意,您应该运行 AWS CLI 命令来更新您的 HyperPod 集群。目前无法通过 SageMaker HyperPod 控制台 UI 更新 HyperPod 软件。

改进

SageMaker HyperPod 发布说明:2024 年 2 月 15 日

SageMaker HyperPod 为发布以下内容使用 Slurm 编排 SageMaker HyperPod 集群

新功能

  • 添加了新的 SageMaker HyperPod 安全UpdateClusterSoftwareAPI补丁。当安全补丁可用时,我们建议您通过运行来更新账户中的现有 SageMaker HyperPod 集群aws sagemaker update-cluster-software --cluster-name your-cluster-name。要跟进 future 的安全补丁,请继续跟踪此 Amazon SageMaker HyperPod 发行说明页面。要了解其UpdateClusterSoftwareAPI工作原理,请参阅更新集群的 SageMaker HyperPod 平台软件

SageMaker HyperPod 发布说明:2023 年 11 月 29 日

SageMaker HyperPod 为发布以下内容使用 Slurm 编排 SageMaker HyperPod 集群

新功能

  • 在 re AWS : Inv SageMaker HyperPod ent 2023 上推出了亚马逊。

HyperPod 软件补丁

HyperPod 服务团队通过SageMaker HyperPod DLAMI分发软件补丁。请参阅以下有关最新版本的详细信息 HyperPod DLAMI。

  • 建立在 2023-10-18 AWS 发布的深度学习基础 GPUAMI(Ubuntu 20.04)的基础上

  • 除基础软件包外,此 HyperPod DLAMI处还包含预装软件包的完整列表 AMI

    • Slurm:v23.02.3

    • Munge:v0.5.15

    • aws-neuronx-dkms: v2。 *

    • aws-neuronx-collectives: v2。 *

    • aws-neuronx-runtime-lib: v2。 *

    • aws-neuronx-tools: v2。 *

    • SageMaker HyperPod 支持集群运行状况检查和自动恢复等功能的软件包