基本运行状况检查
在创建和更新 HyperPod 集群期间,SageMaker HyperPod 会对集群实例执行一系列基本运行状况检查。这些基本运行状况检查与编排工具无关,因此无论 SageMaker HyperPod 支持哪种底层编排平台(Amazon EKS 或 Slurm),这些检查都适用。
基本运行状况检查可监控集群实例是否存在与加速器(GPU 和 Trainium 内核)和网络设备(Elastic Fabric Adapter 或 EFA)等设备相关的问题。要查找基本集群运行状况检查列表,请参阅集群运行状况检查。