기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
Slurm 구성 사용자 지정
AWS ParallelCluster 버전 3.6.0부터 AWS ParallelCluster 클러스터 구성의 slurm.conf
Slurm 구성을 사용자 지정할 수 있습니다.
클러스터 구성에서 다음 클러스터 구성 설정을 사용하여 Slurm 구성 파라미터를 사용자 지정할 수 있습니다.
-
SlurmSettings/CustomSlurmSettings 또는 CustomSlurmSettingsIncludeFile 파라미터를 사용하여 전체 클러스터의 Slurm 파라미터를 사용자 지정합니다. 둘 다 지정하면 AWS ParallelCluster가 실패합니다.
-
SlurmQueues/CustomSlurmSettings(Slurm 파티션에 매핑됨)를 사용하여 대기열의 Slurm 파라미터를 사용자 지정합니다.
-
SlurmQueues/ComputeResources/CustomSlurmSettings(Slurm 노드에 매핑됨)를 사용하여 컴퓨팅 리소스의 Slurm 파라미터를 사용자 지정합니다.
Slurm 구성 사용자 지정 제한 및 AWS ParallelCluster 사용 시 고려 사항
-
CustomSlurmSettings
및CustomSlurmSettingsIncludeFile
설정의 경우 클러스터를 구성하는 데 사용하는 AWS ParallelCluster 버전에서 지원하는 Slurm 버전에 포함된slurm.conf
파라미터만 지정하고 업데이트할 수 있습니다. -
CustomSlurmSettings
파라미터에 사용자 지정 Slurm 구성을 지정하는 경우 AWS ParallelCluster가 유효성 검사를 수행하고 AWS ParallelCluster 로직과 충돌하는 Slurm 구성 파라미터를 설정하거나 업데이트하지 못하도록 합니다. AWS ParallelCluster와 충돌하는 것으로 알려진 Slurm 구성 파라미터는 거부 목록에서 식별됩니다. 다른 Slurm 특능이 추가되면 향후 AWS ParallelCluster 버전에서 거부 목록이 변경될 수 있습니다. 자세한 내용은 CustomSlurmSettings을 위한 거부 목록에 등록된 Slurm 구성 파라미터 항목을 참조하세요. -
AWS ParallelCluster는 파라미터가 거부 목록에 있는지 여부만 확인합니다. AWS ParallelCluster는 사용자 지정 Slurm 구성 파라미터 구문이나 의미 체계를 검증하지 않습니다. 사용자 지정 Slurm 구성 파라미터의 유효성을 검사하는 것은 사용자의 책임입니다. 잘못된 사용자 지정 Slurm 구성 파라미터로 인해 Slurm 대몬(daemon) 장애가 발생하여 클러스터 생성 및 업데이트 실패로 이어질 수 있습니다.
-
CustomSlurmSettingsIncludeFile
에서 사용자 지정 Slurm 구성을 지정하면 AWS ParallelCluster가 검증을 수행하지 않습니다. -
컴퓨팅 플릿을 중지하고 시작하지 않고도
CustomSlurmSettings
및CustomSlurmSettingsIncludeFile
을 업데이트할 수 있습니다. 이 경우 AWS ParallelCluster은slurmctld
대몬(daemon)을 다시 시작하고scontrol reconfigure
명령을 실행합니다.일부 Slurm 구성 파라미터에는 변경 내용이 전체 클러스터에 등록되기 전에 다른 작업이 필요할 수 있습니다. 예를 들어 클러스터의 모든 대몬(daemon)을 다시 시작해야 할 수 있습니다. 업데이트 중에 사용자 지정 Slurm 구성 파라미터 설정을 전파하기에 AWS ParallelCluster 작업이 충분한지 확인하는 것은 사용자의 책임입니다. AWS ParallelCluster작업이 충분하지 않다고 판단되는 경우 Slurm 설명서
의 권장 사항에 따라 업데이트된 설정을 전파하는 데 필요한 추가 조치를 제공하는 것은 사용자의 책임입니다.
CustomSlurmSettings
을 위한 거부 목록에 등록된 Slurm 구성 파라미터
다음 표에는 버전 3.6.0부터 사용을 거부하는 AWS ParallelCluster 버전의 파라미터가 나열되어 있습니다. CustomSlurmSettings
는 버전 3.6.0 이전의 AWS ParallelCluster 버전에서 지원되지 않습니다.
Slurm 파라미터 | AWS ParallelCluster 버전별 거부 목록 |
---|---|
CommunicationParameters |
3.6.0 |
Epilog |
3.6.0 |
GresTypes |
3.6.0 |
LaunchParameters |
3.6.0 |
Prolog |
3.6.0 |
ReconfigFlags |
3.6.0 |
ResumeFailProgram |
3.6.0 |
ResumeProgram |
3.6.0 |
ResumeTimeout |
3.6.0 |
SlurmctldHost |
3.6.0 |
SlurmctldLogFile |
3.6.0 |
SlurmctldParameters |
3.6.0 |
SlurmdLogfile |
3.6.0 |
SlurmUser |
3.6.0 |
SuspendExcNodes |
3.6.0 |
SuspendProgram |
3.6.0 |
SuspendTime |
3.6.0 |
TaskPlugin |
3.6.0 |
TreeWidth |
3.6.0 |
Slurm 파라미터 | AWS ParallelCluster 버전별 거부 목록 |
---|---|
AccountingStorageType |
3.6.0 |
AccountingStorageHost |
3.6.0 |
AccountingStoragePort |
3.6.0 |
AccountingStorageUser |
3.6.0 |
JobAcctGatherType |
3.6.0 |
Slurm 파라미터 | AWS ParallelCluster 버전별 거부 목록 |
---|---|
노드 |
3.6.0 |
PartitionName |
3.6.0 |
ResumeTimeout |
3.6.0 |
State |
3.6.0 |
SuspendTime |
3.6.0 |
Slurm 파라미터 | AWS ParallelCluster 버전 및 이후 버전에서는 거부 목록에 등록되어 있습니다. |
---|---|
CPU |
3.6.0 |
특성 |
3.6.0 |
Gres |
3.6.0 |
NodeAddr |
3.6.0 |
NodeHostname |
3.6.0 |
NodeName |
3.6.0 |
Weight |
3.7.0 |