集群运行状况指标故障排除 - AWS ParallelCluster

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

集群运行状况指标故障排除

从 3.6.0 AWS ParallelCluster 版开始,集群运行状况指标已添加到 AWS ParallelCluster Amazon CloudWatch 控制面板中。在以下各节中,您可以了解控制面板运行状况指标以及可用于排除和解决问题的操作。

看到实例预置错误图表

如果您在Instance Provisioning Errors图表中看到非零值,则表示用于支持 slurm 节点的 Amazon EC2 实例未能在或 API 上CreateFleet启动。RunInstance

看到 IAMPolicyErrors

  • 发生了什么?

    权限不足导致许多实例启动失败,错误代码为 UnauthorizedOperation

  • 如何解决?

    如果您配置了自定义 InstanceRoleInstanceProfile,请检查 IAM 策略并验证使用的凭证是否正确。

    检查 clustermgtd 文件以查看静态节点错误详细信息。检查 slurm_resume.log 文件以查看动态节点错误详细信息。通过详细信息进一步了解必须添加的缺失权限。

看到 VcpuLimitErrors

  • 发生了什么?

    AWS ParallelCluster 无法启动实例,因为它已达到您 AWS 账户 为集群计算节点配置的特定 Amazon EC2 实例类型的 vCPU 限制。

  • 如何解决?

    在静态节点的 clustermgtd 文件和动态节点的 slurm_resume.log 文件中检查 VcpuLimitExceeded 错误,以获取更多详细信息。要解决此问题,您可以请求提高 vCPU 限制。有关如何查看当前限制和申请新限制的更多信息,请参阅《适用于 Linux 实例的亚马逊弹性计算云用户指南》中的亚马逊弹性计算云服务配额

看到 VolumeLimitErrors

  • 发生了什么?

    您已达到自己的 Amazon EBS 容量限制 AWS 账户, AWS ParallelCluster 并且无法启动带有错误代码InsufficientVolumeCapacityVolumeLimitExceeded的实例。

  • 如何解决?

    对静态节点检查 clustermgtd 文件,对动态节点检查 slurm_resume.log 文件,以获取更多卷限制详细信息。要解决此问题,您可以使用其他卷清理现有卷 AWS 区域,或者联系 AWS 支持中心提交提高 Amazon EBS 卷限制的请求。

看到 InsufficientCapacityErrors

OtherInstanceLaunchFailures

  • 发生了什么?

    用于支持计算节点的 Amazon EC2 实例无法使用CreateFleetRunInstance API 启动。

  • 如何解决?

    对静态节点检查 clustermgtd 文件,对动态节点检查 slurm_resume.log 文件,以获取错误的详细信息。

看到运行状况不佳的实例错误图表

  • 发生了什么?

    许多计算实例已启动,但随后因运行状况不佳而终止。

  • 如何解决?

    有关排查运行状况不佳的节点的更多信息,请参阅排查意外节点替换和终止问题

看到 InstanceBootstrapTimeoutError

  • 发生了什么?

    实例无法在 resume_timeout 内(对于动态节点)或 node_replacement_timeout 内(对于静态节点)加入集群。如果没有为计算节点正确配置网络,则可能会发生这种情况,或者,如果在计算节点上运行的自定义脚本需要太长时间才能完成,则可能会发生这种情况。

  • 如何解决?

    对于动态节点,检查 clustermgtd 日志 (/var/log/parallelcluster/clustermgtd) 以查看计算节点 IP 地址和错误,例如以下内容:

    Node bootstrap error: Resume timeout expires for node

    对于静态节点,检查 clustermgtd 日志 (/var/log/parallelcluster/clustermgtd) 以查看计算节点 IP 地址和错误,例如以下内容:

    Node bootstrap error: Replacement timeout expires for node ... in replacement.

    有关更多详细信息,请检查 /var/log/cloud-init-output.log 文件中的错误。您可以从 clustermgtdslurm_resume 日志文件中检索有问题的计算节点的 IP 地址。

看到 EC2HealthCheckErrors

看到 ScheduledEventHealthCheckErrors

  • 发生了什么?

    实例未通过 Amazon EC2 计划事件运行状况检查,并且运行状况不佳。

  • 如何解决?

    有关如何排查此问题的信息,请参阅实例的计划事件

看到 NoCorrespondingInstanceErrors

  • 发生了什么?

    AWS ParallelCluster 找不到支持节点的实例。这些节点可能已在引导操作期间自行终止。SlurmQueues/CustomActions/OnNodeStart | OnNodeConfigured 脚本或网络错误可能会产生 NoCorrespondingInstanceErrors

  • 如何解决?

    有关更多详细信息,请检查 /var/log/cloud-init-output.log 以查看计算节点。

看到计算实例集空闲时间图表

看到 MaxDynamicNodeIdleTime 远长于空闲时间缩减阈值

  • 发生了什么?

    您的实例未正确终止。 MaxDynamicNodeIdleTime显示由 Amazon EC2 实例支持的动态节点处于空闲状态的最长时间(以秒为单位)。空闲时间缩减阈值源自集群配置 ScaledownIdletime 参数。当计算节点的闲置时间超过 Idle Time Scaledown 秒数时,Slurm会关闭该节点的电源并 AWS ParallelCluster 终止后备实例。在这种情况下,某些因素会阻止实例终止。

  • 如何解决?

    有关此问题的更多信息,请参阅排查扩展问题中的替换、终止或关闭有问题的实例和节点