更新 SageMaker HyperPod 平台软件 - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

更新 SageMaker HyperPod 平台软件

创建 SageMaker HyperPod 集群时, SageMaker HyperPod 选择与您的亚马逊集群的 Kubernetes 版本相对应的亚马逊系统映像 (AMI)。EKS

运行update-cluster-software以使用 SageMaker HyperPod 服务提供的软件和安全补丁更新现有集群。对于--cluster-name,请指定要更新的集群ARN的名称或名称。

重要
  • 当API它被调用时, SageMaker HyperPod 不会耗尽或重新分配节点上运行的作业 (Pod)。在调用此方法之前,请务必检查节点上是否正在运行任何作业API。

  • 修补过程会用更新的根卷替换根卷AMI,这意味着您之前存储在实例根卷中的数据将丢失。请务必将实例根卷中的数据备份到 Amazon S3 或 Amazon for Lustre。FSx

  • 修补进行期间,所有群集节点都会出现停机时间(节点显示在的输出中kubectl get node)。<NotReady>我们建议您在修补之前终止所有工作负载,并在补丁完成后恢复这些工作负载。

    如果安全补丁失败,您可以按照中的说明运行来检索失败消息描述集群DescribeClusterAPI

aws sagemaker update-cluster-software --cluster-name your-hyperpod-cluster

调用时 UpdateClusterSoftwareAPI,会SageMaker HyperPod DLAMI根据您的 Amazon 集群的 Kubernetes 版本选择最新版本来 SageMaker HyperPod 更新节点的 Kubernetes 版本。EKS然后,它会在 Amazon S3 存储桶中运行您在创建或更新集群时指定的生命周期脚本。

你可以通过运行命令来验证节点的 kubelet 版本。kubectl describe node

当您更新 Ama EKS zon SageMaker HyperPod 集群版本时,Kubernetes 版本的集群节点不会自动更新。更新 Amazon 集群的 Kubernetes 版本后,必须使用将EKS集 SageMaker HyperPod 群节点更新UpdateClusterSoftwareAPI到相同的 Kubernetes 版本。

建议在更新 Amazon EKS 节点后更新 SageMaker HyperPod 集群,并避免在 Amazon 集群版本和EKS集 SageMaker HyperPod 群节点版本之间存在多个版本差异。

SageMaker HyperPod 服务团队定期推出新SageMaker HyperPod DLAMI产品,以增强安全性和改善用户体验。我们建议您随时更新到最新版本 SageMaker HyperPod DLAMI。要了解 future 的安全补丁 SageMaker HyperPod DLAMI更新,请跟亚马逊 SageMaker HyperPod 发行说明进。

注意

你只能API以编程方式运行它。 SageMaker HyperPod 控制台 UI 中未实现修补功能。