本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
亚马逊 SageMaker HyperPod 发行说明
以下发行说明跟踪了 Amazon 的最新更新 SageMaker HyperPod。这些发行说明描述了自上一版本以来所做的新功能、修复和改进。
SageMaker HyperPod 发布说明:2024 年 9 月 10 日
SageMaker HyperPod 为发布以下内容使用 Amazon 编排 SageMaker HyperPod 集群 EKS。
新功能
-
中添加了 Amazon EKS 支持 SageMaker HyperPod。要了解更多信息,请参阅 使用 Amazon 编排 SageMaker HyperPod 集群 EKS。
SageMaker HyperPod DLAMI获取 Amazon EKS 支持
以下是在 For SageMaker HyperPod DLAMIs Ama EKS zon 支持中预安装或预配置的软件包的汇总列表。每个版本DLAMIs都基于亚马逊 Linux 2 (AL2) 构建,支持特定的 Kubernetes 版本。
AMIs包括以下内容:
SageMaker HyperPod DLAMI获得 Slurm 支持
HyperPod 服务团队通过SageMaker HyperPod DLAMI分发软件补丁。有关Slurm最新版本 HyperPod DLAMI的以下详细信息。
注意
要查找有关使用最新版本更新现有 HyperPod 集群的说明 HyperPod DLAMI,请参阅更新集群的 SageMaker HyperPod 平台软件。
-
已安装NVIDIA驱动程序 v550.90.07
-
已安装EFA驱动程序 v2.10
-
安装了最新版本的 Ne AWS uron SDK
-
aws-neuronx-collectives: v2.21.4 6.0
-
aws-neuronx-dkms: v2.17.17 .0
-
aws-neuronx-oci-hook: v2.4. 4.0
-
aws-neuronx-runtime-lib: v2.21.4 1.0
-
aws-neuronx-tools: v2.18. 3.0
-
SageMaker HyperPod 发布说明:2024 年 8 月 20 日
SageMaker HyperPod 为发布以下内容使用 Slurm 编排 SageMaker HyperPod 集群。
新功能
-
增强了SageMaker HyperPod 自动恢复功能,扩展了与 Generic () 连接的 Slurm 节点的弹性功能。RESources GRES
当通用资源 (GRES)
附加到 Slurm 节点时,Slurm 通常不允许更改节点分配,例如替换节点,因此不允许恢复失败的作业。除非明确禁止,否则 HyperPod自动恢复功能会自动将任何与已启用节点关联的错误作业重新排队。GRES此过程包括停止作业,将其放回作业队列中,然后从头开始重新启动作业。
其他改动
-
预先包装
slurmrestd
在. SageMaker HyperPod AMI -
将
ResumeTimeout
和的默认值UnkillableStepTimeout
从 60 秒更改为 300 秒,slurm.conf
以提高系统响应能力和作业处理能力。 -
对NVIDIA数据中心GPU管理器 (DCGM) 和NVIDIA系统管理界面 (nvidia-smi) 的运行状况检查进行了细微改进。
错误修复
-
HyperPod 自动恢复插件可以使用空闲节点来恢复作业。
升级步骤
-
运行以下命令调用UpdateClusterSoftwareAPI以使用最新版本更新现有 HyperPod集群 HyperPod DLAMI。要查找更多说明,请参阅更新集群的 SageMaker HyperPod 平台软件。
重要
在运行它之前,请先备份您的工作API。修补过程会用更新的根卷替换根卷AMI,这意味着您之前存储在实例根卷中的数据将丢失。请务必将实例根卷中的数据备份到 Amazon S3 或 Amazon for Lustre。FSx有关更多信息,请参阅 使用提供的备份脚本 SageMaker HyperPod。
aws sagemaker update-cluster-software --cluster-name
your-cluster-name
注意
请注意,您应该运行 AWS CLI 命令来更新您的 HyperPod 集群。目前无法通过 SageMaker HyperPod 控制台 UI 更新 HyperPod 软件。
SageMaker HyperPod 发布说明:2024 年 6 月 20 日
SageMaker HyperPod 为发布以下内容使用 Slurm 编排 SageMaker HyperPod 集群。
新功能
-
增加了向 SageMaker HyperPod 集群实例附加额外存储空间的新功能。借助此功能,您可以在集群创建或更新过程中,通过 SageMaker HyperPod 控制台或
CreateCluster
和在实例组配置级别配置补充存储UpdateCluster
APIs。额外的EBS卷将连接到 SageMaker HyperPod 集群中的每个实例并挂载到/opt/sagemaker
。要了解有关在 SageMaker HyperPod 集群中实现它的更多信息,请参阅以下页面上更新的文档。请注意,您需要更新 HyperPod 群集软件才能使用此功能。修补 HyperPod 群集软件后,您可以通过添加新的实例组将此功能用于在 2024 年 6 月 20 日之前创建的现有 SageMaker HyperPod 集群。此功能对于 2024 年 6 月 20 日之后创建的任何 SageMaker HyperPod 集群完全有效。
升级步骤
-
运行以下命令调用UpdateClusterSoftwareAPI以使用最新版本更新现有 HyperPod集群 HyperPod DLAMI。要查找更多说明,请参阅更新集群的 SageMaker HyperPod 平台软件。
重要
在运行它之前,请先备份您的工作API。修补过程会用更新的根卷替换根卷AMI,这意味着您之前存储在实例根卷中的数据将丢失。请务必将实例根卷中的数据备份到 Amazon S3 或 Amazon for Lustre。FSx有关更多信息,请参阅 使用提供的备份脚本 SageMaker HyperPod。
aws sagemaker update-cluster-software --cluster-name
your-cluster-name
注意
请注意,您应该运行 AWS CLI 命令来更新您的 HyperPod 集群。目前无法通过 SageMaker HyperPod 控制台 UI 更新 HyperPod 软件。
SageMaker HyperPod 发布说明:2024 年 4 月 24 日
SageMaker HyperPod 为发布以下内容使用 Slurm 编排 SageMaker HyperPod 集群。
错误修复
-
修复了中
ThreadsPerCore
参数的错误ClusterInstanceGroupSpecification
API。修复后,CreateCluster
和UpdateCluster
APIs正确地接受并应用用户输入ThreadsPerCore
。此修复对 2024 年 4 月 24 日之后创建的 HyperPod 集群生效。如果您遇到此错误的问题,并希望将此修复应用于您的集群,则需要创建一个新集群。在移动到新集群时,请务必按照中的说明备份和恢复工作使用提供的备份脚本 SageMaker HyperPod。
SageMaker HyperPod 发布说明:2024 年 3 月 27 日
SageMaker HyperPod 为发布以下内容使用 Slurm 编排 SageMaker HyperPod 集群。
HyperPod 软件补丁
HyperPod 服务团队通过SageMaker HyperPod DLAMI分发软件补丁。请参阅以下有关最新版本的详细信息 HyperPod DLAMI。
-
在此版本中 HyperPod DLAMI,Slurm 由REST服务 (
slurmestd
) 和JSONYAML、和JWT支持构建。
升级步骤
-
运行以下命令调用UpdateClusterSoftwareAPI以使用最新版本更新现有 HyperPod集群 HyperPod DLAMI。要查找更多说明,请参阅更新集群的 SageMaker HyperPod 平台软件。
重要
在运行它之前,请先备份您的工作API。修补过程会用更新的根卷替换根卷AMI,这意味着您之前存储在实例根卷中的数据将丢失。请务必将实例根卷中的数据备份到 Amazon S3 或 Amazon for Lustre。FSx有关更多信息,请参阅 使用提供的备份脚本 SageMaker HyperPod。
aws sagemaker update-cluster-software --cluster-name
your-cluster-name
注意
请注意,您应该运行 AWS CLI 命令来更新您的 HyperPod 集群。目前无法通过 SageMaker HyperPod 控制台 UI 更新 HyperPod 软件。
改进
-
将自动恢复服务超时时间延长至 60 分钟。
-
改进了实例替换流程,使其不重启 Slurm 控制器。
-
改进了运行生命周期脚本时产生的错误消息,例如实例启动时的下载错误和实例运行状况检查错误。
错误修复
-
修复了 chrony 服务中导致时间同步出现问题的错误。
-
修复了解析
slurm.conf
错误。 -
修复了NVIDIA
go-dcgm
库的问题。
SageMaker HyperPod 发布说明:2024 年 3 月 14 日
SageMaker HyperPod 为发布以下内容使用 Slurm 编排 SageMaker HyperPod 集群。
HyperPod DLAMI适用于 Slurm 软件补丁
HyperPod 服务团队通过SageMaker HyperPod DLAMI分发软件补丁。请参阅以下有关最新版本的详细信息 HyperPod DLAMI。
-
建立在 2023-10-26 AWS 发布的深度学习基础 GPUAMI(Ubuntu 20.04)
的基础上 -
除基础软件包外,此 HyperPod DLAMI处还包含预装软件包的完整列表 AMI
升级步骤
-
运行以下命令调用UpdateClusterSoftwareAPI以使用最新版本更新现有 HyperPod集群 HyperPod DLAMI。要查找更多说明,请参阅更新集群的 SageMaker HyperPod 平台软件。
重要
在运行它之前,请先备份您的工作API。修补过程会用更新的根卷替换根卷AMI,这意味着您之前存储在实例根卷中的数据将丢失。请务必将实例根卷中的数据备份到 Amazon S3 或 Amazon for Lustre。FSx有关更多信息,请参阅 使用提供的备份脚本 SageMaker HyperPod。
aws sagemaker update-cluster-software --cluster-name
your-cluster-name
注意
请注意,您应该运行 AWS CLI 命令来更新您的 HyperPod 集群。目前无法通过 SageMaker HyperPod 控制台 UI 更新 HyperPod 软件。
改进
-
HyperPod 现在可以正确地支持传递通过提供的分区名称,
provisioning_params.json
并根据提供的输入适当创建分区。有关provisioning_params.json
的更多信息,请参阅 使用生命周期脚本自定义 SageMaker HyperPod集群和 SageMaker HyperPod 表格。
SageMaker HyperPod 发布说明:2024 年 2 月 15 日
SageMaker HyperPod 为发布以下内容使用 Slurm 编排 SageMaker HyperPod 集群。
新功能
-
添加了新的 SageMaker HyperPod 安全
UpdateClusterSoftware
API补丁。当安全补丁可用时,我们建议您通过运行来更新账户中的现有 SageMaker HyperPod 集群aws sagemaker update-cluster-software --cluster-name
。要跟进 future 的安全补丁,请继续跟踪此 Amazon SageMaker HyperPod 发行说明页面。要了解其your-cluster-name
UpdateClusterSoftware
API工作原理,请参阅更新集群的 SageMaker HyperPod 平台软件。
SageMaker HyperPod 发布说明:2023 年 11 月 29 日
SageMaker HyperPod 为发布以下内容使用 Slurm 编排 SageMaker HyperPod 集群。
新功能
-
在 re AWS : Inv SageMaker HyperPod ent 2023 上推出了亚马逊。
HyperPod 软件补丁
HyperPod 服务团队通过SageMaker HyperPod DLAMI分发软件补丁。请参阅以下有关最新版本的详细信息 HyperPod DLAMI。
-
建立在 2023-10-18 AWS 发布的深度学习基础 GPUAMI(Ubuntu 20.04)
的基础上 -
除基础软件包外,此 HyperPod DLAMI处还包含预装软件包的完整列表 AMI
-
Slurm
:v23.02.3 -
Munge:v0.5.15
-
aws-neuronx-dkms
: v2。 * -
aws-neuronx-collectives
: v2。 * -
aws-neuronx-runtime-lib
: v2。 * -
aws-neuronx-tools
: v2。 * -
SageMaker HyperPod 支持集群运行状况检查和自动恢复等功能的软件包
-