多队列模式 - AWS ParallelCluster

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

多队列模式

AWS ParallelCluster 版本 2.9.0 引入了多队列模式。如果 scheduler 设置为 slurm 且定义了 queue_settings,则支持多队列模式 此模式允许不同的实例类型在计算节点中共存。包含不同实例类型的计算资源可以根据需要向上或向下扩展。在队列模式下,最多支持五 (5) 个队列,并且每个 [queue] 部分最多可以引用三 (3) 个 [compute_resource] 部分。这些[queue]部分中的每一个都是一个分区 Slurm Workload Manager。 有关更多信息,请参阅Slurm 多队列模式指南多队列模式教程

队列中的每个 [compute_resource] 部分都必须具有不同的实例类型,并且这些 [compute_resource] 中的每一个都进一步分为静态节点和动态节点。每个 [compute_resource] 的静态节点的编号为 1 到 min_count 的值。每个 [compute_resource] 的动态节点的编号为一 (1) 到 (max_count - min_count)。例如,如果 min_count 为 2 且 max_count 为 10,则该 [compute_resource] 的动态节点的编号为一 (1) 到八 (8)。在任何时候,节点数可能介于零 (0) 和 [compute_resource] 中最大动态节点数之间。

启动到计算实例集中的实例是动态分配的。为了帮助管理此分配过程,将为每个节点生成主机名。主机名的格式如下所示:

$HOSTNAME=$QUEUE-$STATDYN-$INSTANCE_TYPE-$NODENUM

  • $QUEUE 是队列的名称。例如,如果该部分开始,[queue queue-name]那么 “$QUEUE” 是”queue-name”.

  • 对于静态节点,$STATDYNst,对于动态节点则为 dy

  • $INSTANCE_TYPEinstance_type 设置中 [compute_resource] 的实例类型。

  • $NODENUM 是节点的编号。对于静态节点,$NODENUM 介于一 (1) 和 min_count 的值之间,对于动态节点,则介于一 (1) 和 (max_count - min_count) 之间。

主机名和完全限定域名 (FQDN) 都是使用 Amazon Route 53 托管区域创建的。FQDN是$HOSTNAME.$CLUSTERNAME.pcluster,其中$CLUSTERNAME是用于集群的[cluster]部分的名称。

要将您的配置转换为队列模式,请使用 pcluster-config convert 命令。该命令将使用名为 [queue compute] 的单个 [queue] 部分写入更新的配置。该队列包含一个名为 [compute_resource default][compute_resource] 部分[queue compute][compute_resource default] 的设置迁移自指定的 [cluster] 部分