本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
多队列模式
AWS ParallelCluster 版本 2.9.0 引入了多队列模式。如果 scheduler 设置为 slurm
且定义了 queue_settings,则支持多队列模式 此模式允许不同的实例类型在计算节点中共存。包含不同实例类型的计算资源可以根据需要向上或向下扩展。在队列模式下,最多支持五 (5) 个队列,并且每个 [queue] 部分最多可以引用三 (3) 个 [compute_resource] 部分。这些[queue]部分中的每一个都是一个分区 Slurm Workload Manager。 有关更多信息,请参阅Slurm 多队列模式指南和多队列模式教程。
队列中的每个 [compute_resource] 部分都必须具有不同的实例类型,并且这些 [compute_resource]
中的每一个都进一步分为静态节点和动态节点。每个 [compute_resource]
的静态节点的编号为 1 到 min_count 的值。每个 [compute_resource]
的动态节点的编号为一 (1) 到 (max_count - min_count
)。例如,如果 min_count
为 2 且 max_count
为 10,则该 [compute_resource]
的动态节点的编号为一 (1) 到八 (8)。在任何时候,节点数可能介于零 (0) 和 [compute_resource]
中最大动态节点数之间。
启动到计算实例集中的实例是动态分配的。为了帮助管理此分配过程,将为每个节点生成主机名。主机名的格式如下所示:
$HOSTNAME=$QUEUE-$STATDYN-$INSTANCE_TYPE-$NODENUM
-
$QUEUE
是队列的名称。例如,如果该部分开始,[queue
那么 “queue-name
]$QUEUE
” 是”queue-name
”. -
对于静态节点,
$STATDYN
为st
,对于动态节点则为dy
。 -
$INSTANCE_TYPE
是 instance_type 设置中[compute_resource]
的实例类型。 -
$NODENUM
是节点的编号。对于静态节点,$NODENUM
介于一 (1) 和 min_count 的值之间,对于动态节点,则介于一 (1) 和 (max_count -min_count
) 之间。
主机名和完全限定域名 (FQDN) 都是使用 Amazon Route 53 托管区域创建的。FQDN是$HOSTNAME.$CLUSTERNAME.pcluster
,其中$CLUSTERNAME
是用于集群的[cluster]部分的名称。
要将您的配置转换为队列模式,请使用 pcluster-config convert 命令。该命令将使用名为 [queue compute]
的单个 [queue] 部分写入更新的配置。该队列包含一个名为 [compute_resource default]
的 [compute_resource] 部分。[queue compute]
和 [compute_resource default]
的设置迁移自指定的 [cluster] 部分。