Slurm 구성 사용자 지정 - AWS ParallelCluster

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Slurm 구성 사용자 지정

AWS ParallelCluster 버전 3.6.0부터 AWS ParallelCluster 클러스터 구성의 slurm.conf Slurm 구성을 사용자 지정할 수 있습니다.

클러스터 구성에서 다음 클러스터 구성 설정을 사용하여 Slurm 구성 파라미터를 사용자 지정할 수 있습니다.

Slurm 구성 사용자 지정 제한 및 AWS ParallelCluster 사용 시 고려 사항

  • CustomSlurmSettingsCustomSlurmSettingsIncludeFile 설정의 경우 클러스터를 구성하는 데 사용하는 AWS ParallelCluster 버전에서 지원하는 Slurm 버전에 포함된 slurm.conf 파라미터만 지정하고 업데이트할 수 있습니다.

  • CustomSlurmSettings 파라미터에 사용자 지정 Slurm 구성을 지정하는 경우 AWS ParallelCluster가 유효성 검사를 수행하고 AWS ParallelCluster 로직과 충돌하는 Slurm 구성 파라미터를 설정하거나 업데이트하지 못하도록 합니다. AWS ParallelCluster와 충돌하는 것으로 알려진 Slurm 구성 파라미터는 거부 목록에서 식별됩니다. 다른 Slurm 특능이 추가되면 향후 AWS ParallelCluster 버전에서 거부 목록이 변경될 수 있습니다. 자세한 내용은 CustomSlurmSettings을 위한 거부 목록에 등록된 Slurm 구성 파라미터 항목을 참조하세요.

  • AWS ParallelCluster는 파라미터가 거부 목록에 있는지 여부만 확인합니다. AWS ParallelCluster는 사용자 지정 Slurm 구성 파라미터 구문이나 의미 체계를 검증하지 않습니다. 사용자 지정 Slurm 구성 파라미터의 유효성을 검사하는 것은 사용자의 책임입니다. 잘못된 사용자 지정 Slurm 구성 파라미터로 인해 Slurm 대몬(daemon) 장애가 발생하여 클러스터 생성 및 업데이트 실패로 이어질 수 있습니다.

  • CustomSlurmSettingsIncludeFile에서 사용자 지정 Slurm 구성을 지정하면 AWS ParallelCluster가 검증을 수행하지 않습니다.

  • 컴퓨팅 플릿을 중지하고 시작하지 않고도 CustomSlurmSettingsCustomSlurmSettingsIncludeFile을 업데이트할 수 있습니다. 이 경우 AWS ParallelCluster은 slurmctld 대몬(daemon)을 다시 시작하고 scontrol reconfigure 명령을 실행합니다.

    일부 Slurm 구성 파라미터에는 변경 내용이 전체 클러스터에 등록되기 전에 다른 작업이 필요할 수 있습니다. 예를 들어 클러스터의 모든 대몬(daemon)을 다시 시작해야 할 수 있습니다. 업데이트 중에 사용자 지정 Slurm 구성 파라미터 설정을 전파하기에 AWS ParallelCluster 작업이 충분한지 확인하는 것은 사용자의 책임입니다. AWS ParallelCluster작업이 충분하지 않다고 판단되는 경우 Slurm 설명서의 권장 사항에 따라 업데이트된 설정을 전파하는 데 필요한 추가 조치를 제공하는 것은 사용자의 책임입니다.

CustomSlurmSettings을 위한 거부 목록에 등록된 Slurm 구성 파라미터

다음 표에는 버전 3.6.0부터 사용을 거부하는 AWS ParallelCluster 버전의 파라미터가 나열되어 있습니다. CustomSlurmSettings는 버전 3.6.0 이전의 AWS ParallelCluster 버전에서 지원되지 않습니다.

클러스터 수준에서 거부 목록에 등록된 파라미터 목록:
Slurm 파라미터 AWS ParallelCluster 버전별 거부 목록

CommunicationParameters

3.6.0

Epilog

3.6.0

GresTypes

3.6.0

LaunchParameters

3.6.0

Prolog

3.6.0

ReconfigFlags

3.6.0

ResumeFailProgram

3.6.0

ResumeProgram

3.6.0

ResumeTimeout

3.6.0

SlurmctldHost

3.6.0

SlurmctldLogFile

3.6.0

SlurmctldParameters

3.6.0

SlurmdLogfile

3.6.0

SlurmUser

3.6.0

SuspendExcNodes

3.6.0

SuspendProgram

3.6.0

SuspendTime

3.6.0

TaskPlugin

3.6.0

TreeWidth

3.6.0

클러스터 구성에서 네이티브 Slurm 회계 통합이 구성된 경우 클러스터 수준에서 거부 목록에 있는 파라미터:
Slurm 파라미터 AWS ParallelCluster 버전별 거부 목록

AccountingStorageType

3.6.0

AccountingStorageHost

3.6.0

AccountingStoragePort

3.6.0

AccountingStorageUser

3.6.0

JobAcctGatherType

3.6.0

AWS ParallelCluster가 관리하는 대기열의 대기열(파티션) 수준에서 거부 목록에 등록된 파라미터:
Slurm 파라미터 AWS ParallelCluster 버전별 거부 목록

노드

3.6.0

PartitionName

3.6.0

ResumeTimeout

3.6.0

State

3.6.0

SuspendTime

3.6.0

AWS ParallelCluster가 관리하는 컴퓨팅 리소스의 컴퓨팅 리소스(노드) 수준에서 거부 목록에 등록된 파라미터:
Slurm 파라미터 AWS ParallelCluster 버전 및 이후 버전에서는 거부 목록에 등록되어 있습니다.

CPU

3.6.0

특성

3.6.0

Gres

3.6.0

NodeAddr

3.6.0

NodeHostname

3.6.0

NodeName

3.6.0

Weight

3.7.0