AWS ParallelCluster 进程 - AWS ParallelCluster

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

AWS ParallelCluster 进程

本节适用于使用 Slurm 部署的集群。与该调度器一起使用时,通过与底层作业调度器交互来 AWS ParallelCluster 管理计算节点的配置和移除。

对于基于的 HPC 集群 AWS Batch, AWS ParallelCluster 依赖于提供的 AWS Batch 计算节点管理功能。

clustermgtd

以下任务由集群管理进程守护程序执行。

  • 非活动分区清理

  • 管理与容量块相关的Slurm预留和节点(参见以下部分)

  • 静态容量管理:确保静态容量始终处于正常运行状态

  • 将调度器与 Amazon EC2 同步。

  • 孤立实例清理

  • 在暂停工作流之外发生 Amazon EC2 终止时还原调度器节点状态

  • 不正常 Amazon EC2 实例管理(Amazon EC2 运行状况检查失败)

  • 定期维护事件管理

  • 不正常调度器节点管理(调度器运行状况检查失败)

管理与容量块相关的Slurm预留和节点

ParallelCluster 支持按需容量预留 (ODCR) 和 Machine Learning 容量块 (CB)。与 ODCR 不同,CB 可以有 future 的开始时间,并且是有时间限制的。

Clustermgtd 在循环中搜索运行状况不佳的节点,并终止所有已关闭的 Amazon EC2 实例,如果它们是静态节点,则将其替换为新实例。

ParallelCluster 以不同的方式管理与容量块关联的静态节点。 AWS ParallelCluster 即使 CB 尚未激活,也会创建集群,并且一旦 CB 处于活动状态,实例就会自动启动。

与尚未处于活动状态的 CB 关联的计算资源对应的Slurm节点将一直处于维护状态,直到到达 CB 启动时间。 Slurm节点将保持与Slurm管理员用户关联的预留/维护状态,这意味着它们可以接受作业,但在Slurm预留被删除之前,任务将保持待处理状态。

Clustermgtd 将自动创建/删除Slurm预留,根据 CB 状态将相关的 CB 节点置于维护状态。当 CB 处于活动状态时,Slurm预留将被移除,节点将启动并可用于待处理的任务或提交的新作业。

当到达 CB 结束时间时,节点将移回预留/维护状态。当 CB 不再处于活动状态且实例终止时,用户可以将任务重新提交/重新排队到新的队列/计算资源。

clusterstatusmgtd

集群状态管理进程守护程序管理计算实例集状态更新。它每分钟获取一次存储在 DynamoDB 表中的实例集状态并管理所有停止/启动请求。

computemgtd

计算管理进程守护程序 (computemgtd) 进程在每个集群计算节点上运行。每隔五 (5) 分钟,计算管理进程守护程序就会确认头节点可以访问并且运行正常。如果在五 (5) 分钟内无法访问头节点或头节点运行状况不佳,则将关闭计算节点。