自动恢复节点 - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

自动恢复节点

在创建或更新集群期间,集群管理员用户可以在(推荐)和None集群级别之间选择节点Automatic(实例)恢复选项。如果设置为Automatic,则 SageMaker HyperPod 自动重启或更换故障节点。

重要

我们建议设置该Automatic选项。

当从运行状况监控代理、基本运行状况检查和深度运行状况检查中发现问题时,会运行自动节点恢复。如果设置为None,运行状况监控代理将在检测到故障时标记实例,但不会在受影响的节点上自动启动任何修复或恢复操作。不建议使用该选项。