Slurm 구성 사용자 지정 - AWS ParallelCluster

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Slurm 구성 사용자 지정

AWS ParallelCluster 버전 3.6.0부터 AWS ParallelCluster 클러스터 slurm.conf Slurm 구성에서 구성을 사용자 지정할 수 있습니다.

클러스터 구성에서 다음 클러스터 구성 설정을 사용하여 Slurm 구성 파라미터를 사용자 지정할 수 있습니다.

Slurm 사용 시 구성 사용자 지정 제한 및 고려 사항 AWS ParallelCluster

  • CustomSlurmSettingsCustomSlurmSettingsIncludeFile 설정의 경우 클러스터를 구성하는 데 사용하는 Slurm 버전에서 지원하는 AWS ParallelCluster 버전에 포함된 slurm.conf 파라미터만 지정하고 업데이트할 수 있습니다.

  • CustomSlurmSettings 파라미터에서 사용자 지정 Slurm 구성을 지정하는 경우 AWS ParallelCluster 는 검증 검사를 AWS ParallelCluster 수행하고 로직과 충돌하는 Slurm 구성 파라미터를 설정하거나 업데이트하지 못하도록 합니다. 와 충돌하는 것으로 알려진 Slurm 구성 파라미터는 거부 목록에서 식별 AWS ParallelCluster 됩니다. 다른 Slurm 기능이 추가되면 향후 AWS ParallelCluster 버전에서 거부 목록이 변경될 수 있습니다. 자세한 내용은 CustomSlurmSettings을 위한 거부 목록에 등록된 Slurm 구성 파라미터 단원을 참조하십시오.

  • AWS ParallelCluster 는 파라미터가 거부 목록에 있는지만 확인합니다.는 사용자 지정 Slurm 구성 파라미터 구문 또는 의미 체계를 검증하지 AWS ParallelCluster 않습니다. 사용자 지정 Slurm 구성 파라미터의 유효성을 검사하는 것은 사용자의 책임입니다. 잘못된 사용자 지정 Slurm 구성 파라미터로 인해 Slurm 대몬(daemon) 장애가 발생하여 클러스터 생성 및 업데이트 실패로 이어질 수 있습니다.

  • 에서 사용자 지정 Slurm 구성을 지정하는 경우 CustomSlurmSettingsIncludeFile AWS ParallelCluster 는 검증을 수행하지 않습니다.

  • 컴퓨팅 플릿을 중지하고 시작하지 않고도 CustomSlurmSettingsCustomSlurmSettingsIncludeFile을 업데이트할 수 있습니다. 이 경우 slurmctld는 데몬을 AWS ParallelCluster 다시 시작하고 scontrol reconfigure 명령을 실행합니다.

    일부 Slurm 구성 파라미터에는 변경 내용이 전체 클러스터에 등록되기 전에 다른 작업이 필요할 수 있습니다. 예를 들어 클러스터의 모든 대몬(daemon)을 다시 시작해야 할 수 있습니다. 업데이트 중에 사용자 지정 Slurm 구성 파라미터 설정을 전파하기에 AWS ParallelCluster 작업이 충분한지 확인하는 것은 사용자의 책임입니다. AWS ParallelCluster 작업이 충분하지 않은 경우 Slurm 설명서의 권장 사항에 따라 업데이트된 설정을 전파하는 데 필요한 추가 작업을 제공하는 것은 사용자의 책임입니다.

CustomSlurmSettings을 위한 거부 목록에 등록된 Slurm 구성 파라미터

다음 표에는 AWS ParallelCluster 버전 3.6.0부터 사용을 거부하는 버전이 포함된 파라미터가 나열되어 있습니다. CustomSlurmSettings는 버전 3.6.0 이전 AWS ParallelCluster 버전에서는 지원되지 않습니다.

클러스터 수준에서 거부 목록에 등록된 파라미터 목록:
Slurm 파라미터 AWS ParallelCluster 버전에 거부 등록됨

CommunicationParameters

3.6.0

Epilog

3.6.0

GresTypes

3.6.0

LaunchParameters

3.6.0

Prolog

3.6.0

ReconfigFlags

3.6.0

ResumeFailProgram

3.6.0

ResumeProgram

3.6.0

ResumeTimeout

3.6.0

SlurmctldHost

3.6.0

SlurmctldLogFile

3.6.0

SlurmctldParameters

3.6.0

SlurmdLogfile

3.6.0

SlurmUser

3.6.0

SuspendExcNodes

3.6.0

SuspendProgram

3.6.0

SuspendTime

3.6.0

TaskPlugin

3.6.0

TreeWidth

3.6.0

클러스터 구성에서 네이티브 Slurm 회계 통합이 구성된 경우 클러스터 수준에서 거부 목록에 있는 파라미터:
Slurm 파라미터 AWS ParallelCluster 버전에 거부 등록됨

AccountingStorageType

3.6.0

AccountingStorageHost

3.6.0

AccountingStoragePort

3.6.0

AccountingStorageUser

3.6.0

JobAcctGatherType

3.6.0

다음과 같이 관리되는 대기열에 대한 대기열(파티션) 수준에서 거부 목록에 있는 파라미터 AWS ParallelCluster:
Slurm 파라미터 AWS ParallelCluster 버전에 거부 등록됨

노드

3.6.0

PartitionName

3.6.0

ResumeTimeout

3.6.0

State

3.6.0

SuspendTime

3.6.0

다음을 통해 관리되는 컴퓨팅 리소스에 대한 컴퓨팅 리소스(노드) 수준에서 거부 목록 파라미터 AWS ParallelCluster:
Slurm 파라미터 AWS ParallelCluster 버전 이상에서 거부 목록

CPU

3.6.0

특성

3.6.0

Gres

3.6.0

NodeAddr

3.6.0

NodeHostname

3.6.0

NodeName

3.6.0

가중치

3.7.0