与弹性相关的 Kubernetes 标签由 SageMaker HyperPod - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

与弹性相关的 Kubernetes 标签由 SageMaker HyperPod

标签是附加到 K ub ernetes 对象的键值对。 SageMaker HyperPod 为其提供的运行状况检查引入了以下标签。

节点运行状况标签

node-health-status 标签代表节点的运行状况状态,在运行状况节点中用作节点选择器筛选器的一部分。

标签 描述
sagemaker.amazonaws.com/node-health-status: Schedulable 节点已通过基本运行状况检查,可用于运行工作负载。此运行状况检查与 Slurm 集群当前可用的 SageMaker HyperPod 弹性功能相同。
sagemaker.amazonaws.com/node-health-status: Unschedulable 节点正在运行深度运行状况检查,无法用于运行工作负载。
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement 节点的深度运行状况检查或运行状况监控座席检查失败,需要更换。如果启用了自动节点恢复,则该节点将自动替换为 SageMaker HyperPod。
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot 节点的深度运行状况检查或运行状况监控座席检查失败,需要重启。如果启用了自动节点恢复,则节点将由自动重启。 SageMaker HyperPod

深度运行状况检查标签

deep-health-check-status 标签表示特定节点的深度运行状况检查进度。有助于 Kubernetes 用户快速筛选整体深度运行状况检查的进度。

标签 描述
sagemaker.amazonaws.com/deep-health-check-status: InProgress 节点正在运行深度运行状况检查,无法用于运行工作负载。
sagemaker.amazonaws.com/deep-health-check-status: Passed 该节点已成功完成深度运行状况检查和运行状况监控代理检查,可用于运行的工作负载。
sagemaker.amazonaws.com/deep-health-check-status: Failed 节点的深度运行状况检查或运行状况监控座席检查失败,需要重启或更换。如果启用了自动节点恢复,则节点将自动重启或替换为。 SageMaker HyperPod

故障类型和原因标签

以下是对 fault-typefault-reason 标签的描述。

  • fault-type 标签代表运行状况检查失败时的高级故障类别。在深度运行状况和运行状况监控座席检查过程中发现的故障都会填充这些信息。

  • fault-reason 标签表示与 fault-type 相关的详细故障原因。

SageMaker HyperPod 标签怎么样

以下主题将介绍在不同情况下如何进行标记。

将节点添加到禁用深度运行状况检查配置的 SageMaker HyperPod 集群时

将新节点添加到集群时,如果未为实例组启用深度运行状况检查,则 SageMaker HyperPod 运行与 Slurm 集群当前可用的运行 SageMaker HyperPod 状况检查相同的运行状况检查

如果运行状况检查通过,节点将被标记为以下标签。

sagemaker.amazonaws.com/node-health-status: Schedulable

如果运行状况检查未通过,节点将被终止并替换。此行为与 Slurm 集群的运行 SageMaker HyperPod 状况检查方式相同。

将节点添加到启用了深度运行状况检查配置的 SageMaker HyperPod 集群时

将新节点添加到 SageMaker HyperPod 集群中时,如果为该实例组启用了深度运行状况检查测试,则 HyperPod 首先会污染该节点,然后在该节点上开始大约 2 小时的深度运行状况检查/压力测试。深度运行状况检查后,节点标签可能有 3 种输出。

  1. 当深度运行状况检查测试通过时

    sagemaker.amazonaws.com/node-health-status: Schedulable
  2. 当深度运行状况检查测试失败,需要替换实例时

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement
  3. 当深度运行状况检查测试失败,需要重启实例以重新运行深度运行状况检查时

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot

如果实例未能通过深度运行状况检查测试,则会被替换。如果深度运行状况检查测试成功,节点上的污点将被清除。

当节点上出现任何计算故障时

SageMaker HyperPod 运行状况监控器代理还会持续监控每个节点的运行状况。当检测到任何故障(如 GPU 故障和驱动程序崩溃)时,座席会用以下标签之一标记节点。

  1. 当节点不运行状况并需要更换时

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement
  2. 当节点不运行状况并需要重启时

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot

当运行状况监控座席检测到任何节点运行状况问题时,它也会对节点进行染色。