本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
Slurm 配置自定义
从 3.6.0 AWS ParallelCluster 版开始,您可以自定义 slurm.conf
Slurm AWS ParallelCluster 集群配置中的配置。
在集群配置中,您可以自定义 Slurm 使用以下集群配置设置配置参数:
-
自定义 Slurm 使用 SlurmSettings/CustomSlurmSettings或参数为整个集群CustomSlurmSettingsIncludeFile设置参数。 AWS ParallelCluster 如果同时指定两者,则失败。
-
自定义 Slurm 使用 SlurmQueues/为队列设置参数 CustomSlurmSettings(映射到 Slurm 分区)。
-
自定义 Slurm 使用 SlurmQueues/ComputeResources/CustomSlurmSettings(映射到)计算资源的参数 Slurm 节点)。
Slurm 配置自定义限制和使用时的注意事项 AWS ParallelCluster
-
对于
CustomSlurmSettings
和CustomSlurmSettingsIncludeFile
设置,您只能指定和更新包含在中的slurm.conf
参数 Slurm 您用于配置集群的 AWS ParallelCluster 版本所支持的版本。 -
如果您指定自定义 Slurm 在任何
CustomSlurmSettings
参数中进行配置, AWS ParallelCluster 执行验证检查并阻止设置或更新 Slurm 与 AWS ParallelCluster 逻辑冲突的配置参数。这些区域有:Slurm 已知与 AWS ParallelCluster 之冲突的配置参数在拒绝列表中标识。如果有其他情况,拒绝列表可能会在 future AWS ParallelCluster 版本中发生变化 Slurm 功能已添加。有关更多信息,请参阅 被拒登名单 Slurm 的配置参数 CustomSlurmSettings。 -
AWS ParallelCluster 仅检查参数是否在拒绝列表中。 AWS ParallelCluster 无法验证您的自定义 Slurm 配置参数语法或语义。您有责任验证您的自定义 Slurm 配置参数。无效的自定义 Slurm 配置参数可能导致 Slurm 守护程序失败可能导致集群创建和更新失败。
-
如果您指定自定义 Slurm 中的配置
CustomSlurmSettingsIncludeFile
, AWS ParallelCluster 不执行任何验证。 -
您可以更新
CustomSlurmSettings
和CustomSlurmSettingsIncludeFile
而不停止然后启动计算实例集。在这种情况下, AWS ParallelCluster 重新启动slurmctld
守护程序并运行命令。scontrol reconfigure
一段时间 Slurm 在整个集群中注册更改之前,可能需要对配置参数进行不同的操作。例如,它们可能需要重启集群中的所有进程守护程序。您有责任验证 AWS ParallelCluster 操作是否足以传播您的自定义内容 Slurm 更新期间的配置参数设置。如果您发现 AWS ParallelCluster 操作还不够,则您有责任按照中的建议提供传播更新后的设置所需的额外操作 Slurm 文档
。
被拒登名单 Slurm 的配置参数 CustomSlurmSettings
下表列出了拒绝使用参数的 AWS ParallelCluster 版本(从 3.6.0 版本开始)。 CustomSlurmSettings
3.6.0 之前的 AWS ParallelCluster 版本不支持。
Slurm 参数 | 已在版本中列出拒绝 AWS ParallelCluster |
---|---|
CommunicationParameters |
3.6.0 |
Epilog |
3.6.0 |
GresTypes |
3.6.0 |
LaunchParameters |
3.6.0 |
Prolog |
3.6.0 |
ReconfigFlags |
3.6.0 |
ResumeFailProgram |
3.6.0 |
ResumeProgram |
3.6.0 |
ResumeTimeout |
3.6.0 |
SlurmctldHost |
3.6.0 |
SlurmctldLogFile |
3.6.0 |
SlurmctldParameters |
3.6.0 |
SlurmdLogfile |
3.6.0 |
SlurmUser |
3.6.0 |
SuspendExcNodes |
3.6.0 |
SuspendProgram |
3.6.0 |
SuspendTime |
3.6.0 |
TaskPlugin |
3.6.0 |
TreeWidth |
3.6.0 |
Slurm 参数 | 已在版本中列出拒绝 AWS ParallelCluster |
---|---|
AccountingStorageType |
3.6.0 |
AccountingStorageHost |
3.6.0 |
AccountingStoragePort |
3.6.0 |
AccountingStorageUser |
3.6.0 |
JobAcctGatherType |
3.6.0 |
Slurm 参数 | 已在版本中列出拒绝 AWS ParallelCluster |
---|---|
Nodes |
3.6.0 |
PartitionName |
3.6.0 |
ResumeTimeout |
3.6.0 |
State |
3.6.0 |
SuspendTime |
3.6.0 |
Slurm 参数 | 已在版本和更高 AWS ParallelCluster 版本中列出 “拒绝” |
---|---|
CPUs |
3.6.0 |
Features |
3.6.0 |
Gres |
3.6.0 |
NodeAddr |
3.6.0 |
NodeHostname |
3.6.0 |
NodeName |
3.6.0 |
权重 |
3.7.0 |