本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
建议的弹性配置
启用深度运行状况检查后,每当向 HyperPod 集群添加新实例时(无论是在创建集群期间还是通过自动节点替换),新实例都会经过大约几个小时的深度运行状况检查过程(实例级别的压力测试)。以下是根据可能的情况建议的弹性配置组合。
-
案例:集群内有额外的备用节点作为备份资源(不使用全部容量),或者您可以等待大约 2 小时让深度运行状况检查过程获得不太容易出错的实例。
建议:在整个集群生命周期中启用深度运行状况检查配置。默认情况下,节点自动恢复配置处于启用状态。
-
案例:当您没有额外的备份节点时(容量已完全用于某些训练负载)。你想尽快获得替换节点以恢复训练作业。
建议:在创建集群期间启用深度运行状况检查,然后在创建集群后关闭深度运行状况检查配置。默认情况下,Node auto 恢复配置处于启用状态。
-
案例:当您没有额外的备份节点,并且不想等待大约 2 小时的深度运行状况检查过程(小型集群)时。
建议:在整个集群生命周期中禁用深度运行状况检查配置。默认情况下,Node auto 恢复配置处于启用状态。
如果要立即从失败中恢复训练作业,请确保集群中有其他备用节点作为备份资源。