Slurm 구성 파일에서 HyperPod 관리하는 특정 구성 - Amazon SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Slurm 구성 파일에서 HyperPod 관리하는 특정 구성

에서 Slurm 클러스터를 생성하면 HyperPod HyperPod 에이전트는 클러스터 HyperPod 생성 요청 및 수명 주기 스크립트를 기반으로 Slurm 클러스터를 관리하기 /opt/slurm/etc/ 위해 slurm.confgres.conf 파일을 에서 설정합니다. 다음 목록은 HyperPod 에이전트가 처리하고 덮어쓰는 특정 파라미터를 보여줍니다.

중요

에서 관리하는 이러한 파라미터를 변경하지 않는 것이 좋습니다 HyperPod.

  • 에서 slurm.conf, ClusterName, 및 기본 파라미터를 HyperPod 설정합니다SlurmctldHostPartitionNameNodeName.

    또한 자동 재개 기능을 활성화하려면 다음과 같이 설정된 TaskPluginSchedulerParameters 파라미터가 HyperPod 필요합니다. HyperPod 에이전트는 기본적으로 필요한 값으로 이 두 파라미터를 설정합니다.

    TaskPlugin=task/none SchedulerParameters=permit_job_expansion
  • 에서 GPU 노드NodeNamegres.conf HyperPod 관리합니다.