本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Slurm組態自訂
開始於AWS ParallelCluster版本 3.6.0,您可以自定義slurm.conf
Slurm組態中的AWS ParallelCluster叢集配置。
在叢集配置中,您可以自訂Slurm使用下列叢集配置設定的組態參數:
-
自訂Slurm整個叢集的參數,使用SlurmSettings/CustomSlurmSettings或CustomSlurmSettingsIncludeFile參數。AWS ParallelCluster如果同時指定兩者,則失敗。
-
自訂Slurm使用佇列的參數SlurmQueues/CustomSlurmSettings(對應至Slurm分區)。
-
自訂Slurm使用計算資源的參數SlurmQueues/ComputeResources/CustomSlurmSettings(對應至Slurm節點)。
Slurm組態自訂限制和使用時的注意事項AWS ParallelCluster
-
對於
CustomSlurmSettings
和CustomSlurmSettingsIncludeFile
設置,您只能指定和更新slurm.conf
中包括的參數Slurm版這是由AWS ParallelCluster您用來配置叢集的版本。 -
如果您指定自訂Slurm組態中的任何
CustomSlurmSettings
參數,AWS ParallelCluster執行驗證檢查並防止設置或更新Slurm與衝突的組態參數AWS ParallelCluster邏輯。該Slurm已知會與之衝突的組態參數AWS ParallelCluster在拒絕清單中識別。拒絕清單可能會在未來變更AWS ParallelCluster版本,如果其他Slurm功能被添加。如需詳細資訊,請參閱拒絕列出Slurm組態參數CustomSlurmSettings。 -
AWS ParallelCluster僅檢查參數是否在拒絕清單中。AWS ParallelCluster不驗證您的自定義Slurm配置參數語法或語義。您有責任驗證您的自定義Slurm組態參數。無效的自訂Slurm配置參數可能會導致Slurm可能導致叢集建立和更新失敗的協助程式失敗。
-
如果您指定自訂Slurm組態
CustomSlurmSettingsIncludeFile
,AWS ParallelCluster不執行任何驗證。 -
您可以更新
CustomSlurmSettings
和CustomSlurmSettingsIncludeFile
無需停止和啟動計算叢集。在這種情況下,AWS ParallelCluster重新啟動slurmctld
守護進程並運行scontrol reconfigure
指令。一些Slurm在整個叢集中註冊變更之前,配置參數可能需要不同的作業。例如,他們可能需要重新啟動叢集中的所有精靈。您有責任核實是否AWS ParallelCluster操作足以傳播您的自定義Slurm更新期間的組態參數設定。如果你發現AWS ParallelCluster作業不足,您有責任提供傳播更新設定所需的其他動作,如Slurm文件
。
拒絕列出Slurm組態參數CustomSlurmSettings
下表列出了具有AWS ParallelCluster拒絕其使用的版本,從版本 3.6.0 開始。CustomSlurmSettings
不支援AWS ParallelCluster版本比 3.6.0 版更早的版本。
Slurm 參數 | 拒絕上市AWS ParallelCluster版本 |
---|---|
CommunicationParameters |
3.6.0 |
Epilog |
3.6.0 |
GresTypes |
3.6.0 |
LaunchParameters |
3.6.0 |
序言 |
3.6.0 |
ReconfigFlags |
3.6.0 |
ResumeFailProgram |
3.6.0 |
ResumeProgram |
3.6.0 |
ResumeTimeout |
3.6.0 |
SlurmctldHost |
3.6.0 |
SlurmctldLogFile |
3.6.0 |
SlurmctldParameters |
3.6.0 |
SlurmdLogfile |
3.6.0 |
SlurmUser |
3.6.0 |
SuspendExcNodes |
3.6.0 |
SuspendProgram |
3.6.0 |
SuspendTime |
3.6.0 |
TaskPlugin |
3.6.0 |
TreeWidth |
3.6.0 |
Slurm 參數 | 拒絕上市AWS ParallelCluster版本 |
---|---|
AccountingStorageType |
3.6.0 |
AccountingStorageHost |
3.6.0 |
AccountingStoragePort |
3.6.0 |
AccountingStorageUser |
3.6.0 |
JobAcctGatherType |
3.6.0 |
Slurm 參數 | 拒絕上市AWS ParallelCluster版本 |
---|---|
節點 |
3.6.0 |
PartitionName |
3.6.0 |
ResumeTimeout |
3.6.0 |
州 |
3.6.0 |
SuspendTime |
3.6.0 |
Slurm 參數 | 拒絕上市AWS ParallelCluster版本和更高版本 |
---|---|
CPU |
3.6.0 |
功能 |
3.6.0 |
格雷斯 |
3.6.0 |
NodeAddr |
3.6.0 |
NodeHostname |
3.6.0 |
NodeName |
3.6.0 |
Weight |
3.7.0 |