与弹性相关的 Kubernetes 标签由 SageMaker HyperPod - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

与弹性相关的 Kubernetes 标签由 SageMaker HyperPod

标签是附加到 K ub ernetes 对象的键值对。 SageMaker HyperPod 为其提供的运行状况检查引入了以下标签。

节点健康状态标签

node-health-status标签代表节点的健康状态,可用作健康节点中节点选择器过滤器的一部分。

标签 描述
sagemaker.amazonaws.com/node-health-status: Schedulable 该节点已通过基本运行状况检查,可用于运行的工作负载。此运行状况检查与 Slurm 集群当前可用的 SageMaker HyperPod 弹性功能相同。
sagemaker.amazonaws.com/node-health-status: Unschedulable 该节点正在运行深度运行状况检查,无法用于运行的工作负载。
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement 该节点未通过深度运行状况检查或运行状况监控代理检查,需要更换。如果启用了自动节点恢复,则该节点将自动替换为 SageMaker HyperPod。
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot 该节点未通过深度运行状况检查或运行状况监控代理检查,需要重新启动。如果启用了自动节点恢复,则节点将由自动重启。 SageMaker HyperPod

深度健康检查标签

deep-health-check-status标签代表特定节点上深度运行状况检查的进度。有助于 Kubernetes 用户快速筛选整体深度运行状况检查的进度。

标签 描述
sagemaker.amazonaws.com/deep-health-check-status: InProgress 该节点正在运行深度运行状况检查,无法用于运行的工作负载。
sagemaker.amazonaws.com/deep-health-check-status: Passed 该节点未通过深度运行状况检查或运行状况监控代理检查,需要更换。如果启用了自动节点恢复,则该节点将自动替换为 SageMaker HyperPod。
sagemaker.amazonaws.com/deep-health-check-status: Failed 该节点未通过深度运行状况检查或运行状况监控代理检查,需要重新启动或更换。如果启用了自动节点恢复,则节点将由自动重启。 SageMaker HyperPod

故障类型和原因标签

休耕描述了fault-typefault-reason标签。

  • fault-type标签表示运行状况检查失败时的高级错误类别。如果在深度运行状况和运行状况监控代理检查期间发现的故障,则会填充这些错误。

  • fault-reason标签表示与相关联的详细故障原因fault-type

SageMaker HyperPod 标签怎么样

以下主题涵盖了如何根据各种情况进行标记。

将节点添加到禁用深度运行状况检查配置的 SageMaker HyperPod 集群时

将新节点添加到集群时,如果未为实例组启用深度运行状况检查,则 SageMaker HyperPod 运行与 Slurm 集群当前可用的运行 SageMaker HyperPod 状况检查相同的运行状况检查

如果运行状况检查通过,则节点将标有以下标签。

sagemaker.amazonaws.com/node-health-status: Schedulable

如果运行状况检查未通过,则节点将被终止并替换。此行为与 Slurm 集群的运行 SageMaker HyperPod 状况检查方式相同。

将节点添加到启用了深度运行状况检查配置的 SageMaker HyperPod 集群时

将新节点添加到 SageMaker HyperPod 集群中时,如果为该实例组启用了深度运行状况检查测试,则 HyperPod 首先会污染该节点,然后在该节点上开始大约 2 小时的深度运行状况检查/压力测试。深度运行状况检查后,节点标签有 3 种可能的输出。

  1. 深度运行状况检查测试通过后

    sagemaker.amazonaws.com/node-health-status: Schedulable
  2. 当深度运行状况检查测试失败并且需要更换实例时

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement
  3. 当深度运行状况检查测试失败,并且需要重启实例才能重新运行深度运行状况检查时

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot

如果实例未通过深度运行状况检查测试,则该实例将始终被替换。如果深度健康检查测试成功,则节点上的污点将被移除。

当节点上出现任何计算故障时

SageMaker HyperPod 运行状况监控代理还会持续监控每个节点的运行状况。当它检测到任何故障(例如GPU故障和驱动程序崩溃)时,代理会使用以下标签之一标记该节点。

  1. 当节点运行状况不佳需要更换时

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement
  2. 当节点运行状况不佳需要重启时

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot

运行状况监控器代理在检测到任何节点运行状况问题时也会污染节点。