本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
自动恢复节点
在创建或更新集群期间,集群管理员用户可以在(推荐)和None
集群级别之间选择节点Automatic
(实例)恢复选项。如果设置为Automatic
,则 SageMaker HyperPod 自动重启或更换故障节点。
重要
我们建议设置该Automatic
选项。
当从运行状况监控代理、基本运行状况检查和深度运行状况检查中发现问题时,会运行自动节点恢复。如果设置为None
,运行状况监控代理将在检测到故障时标记实例,但不会在受影响的节点上自动启动任何修复或恢复操作。不建议使用该选项。