Slurm 配置自定义 - AWS ParallelCluster

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Slurm 配置自定义

从 3.6.0 AWS ParallelCluster 版开始,您可以自定义 slurm.conf Slurm AWS ParallelCluster 集群配置中的配置。

在集群配置中,您可以自定义 Slurm 使用以下集群配置设置配置参数:

Slurm 配置自定义限制和使用时的注意事项 AWS ParallelCluster

  • 对于CustomSlurmSettingsCustomSlurmSettingsIncludeFile设置,您只能指定和更新包含在中的slurm.conf参数 Slurm 您用于配置集群的 AWS ParallelCluster 版本所支持的版本。

  • 如果您指定自定义 Slurm 在任何CustomSlurmSettings参数中进行配置, AWS ParallelCluster 执行验证检查并阻止设置或更新 Slurm 与 AWS ParallelCluster 逻辑冲突的配置参数。这些区域有:Slurm 已知与 AWS ParallelCluster 之冲突的配置参数在拒绝列表中标识。如果有其他情况,拒绝列表可能会在 future AWS ParallelCluster 版本中发生变化 Slurm 功能已添加。有关更多信息,请参阅 被拒登名单 Slurm 的配置参数 CustomSlurmSettings

  • AWS ParallelCluster 仅检查参数是否在拒绝列表中。 AWS ParallelCluster 无法验证您的自定义 Slurm 配置参数语法或语义。您有责任验证您的自定义 Slurm 配置参数。无效的自定义 Slurm 配置参数可能导致 Slurm 守护程序失败可能导致集群创建和更新失败。

  • 如果您指定自定义 Slurm 中的配置CustomSlurmSettingsIncludeFile, AWS ParallelCluster 不执行任何验证。

  • 您可以更新 CustomSlurmSettingsCustomSlurmSettingsIncludeFile 而不停止然后启动计算实例集。在这种情况下, AWS ParallelCluster 重新启动slurmctld守护程序并运行命令。scontrol reconfigure

    一段时间 Slurm 在整个集群中注册更改之前,可能需要对配置参数进行不同的操作。例如,它们可能需要重启集群中的所有进程守护程序。您有责任验证 AWS ParallelCluster 操作是否足以传播您的自定义内容 Slurm 更新期间的配置参数设置。如果您发现 AWS ParallelCluster 操作还不够,则您有责任按照中的建议提供传播更新后的设置所需的额外操作 Slurm 文档

被拒登名单 Slurm 的配置参数 CustomSlurmSettings

下表列出了拒绝使用参数的 AWS ParallelCluster 版本(从 3.6.0 版本开始)。 CustomSlurmSettings3.6.0 之前的 AWS ParallelCluster 版本不支持。

集群级别列入拒绝列表的参数:
Slurm 参数 已在版本中列出拒绝 AWS ParallelCluster

CommunicationParameters

3.6.0

Epilog

3.6.0

GresTypes

3.6.0

LaunchParameters

3.6.0

Prolog

3.6.0

ReconfigFlags

3.6.0

ResumeFailProgram

3.6.0

ResumeProgram

3.6.0

ResumeTimeout

3.6.0

SlurmctldHost

3.6.0

SlurmctldLogFile

3.6.0

SlurmctldParameters

3.6.0

SlurmdLogfile

3.6.0

SlurmUser

3.6.0

SuspendExcNodes

3.6.0

SuspendProgram

3.6.0

SuspendTime

3.6.0

TaskPlugin

3.6.0

TreeWidth

3.6.0

本机时在集群级别被拒绝列出的参数 Slurm 记账集成是在群集配置中配置的:
Slurm 参数 已在版本中列出拒绝 AWS ParallelCluster

AccountingStorageType

3.6.0

AccountingStorageHost

3.6.0

AccountingStoragePort

3.6.0

AccountingStorageUser

3.6.0

JobAcctGatherType

3.6.0

队列管理的队列的队列(分区)级别的拒绝列表参数: AWS ParallelCluster
Slurm 参数 已在版本中列出拒绝 AWS ParallelCluster

Nodes

3.6.0

PartitionName

3.6.0

ResumeTimeout

3.6.0

State

3.6.0

SuspendTime

3.6.0

由以下机构管理的计算资源(节点)级别的拒绝列出的计算资源的参数: AWS ParallelCluster
Slurm 参数 已在版本和更高 AWS ParallelCluster 版本中列出 “拒绝”

CPUs

3.6.0

Features

3.6.0

Gres

3.6.0

NodeAddr

3.6.0

NodeHostname

3.6.0

NodeName

3.6.0

权重

3.7.0