작업을 실행하려는 경우 - AWS ParallelCluster

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

작업을 실행하려는 경우

다음 섹션에서는 작업 실행 중에 문제가 발생할 경우 가능한 문제 해결 솔루션을 제공합니다.

srun 대화형 작업이 srun: error: fwd_tree_thread: can't find address for <host>, check slurm.conf 오류가 발생하여 실패합니다.

  • 왜 실패했나요?

    srun 명령을 실행하여 작업을 제출한 다음 명령을 다시 시작하지 않고 pcluster update-cluster 명령을 사용하여 대기열 크기를 늘렸습니다.Slurm 업데이트가 완료된 후 데몬.

    Slurm 구성 Slurm 트리 계층 구조의 데몬으로 통신을 최적화합니다. 이 계층 구조는 대몬(daemon)이 시작될 때만 업데이트됩니다.

    srun를 사용하여 작업을 시작한 다음 pcluster update-cluster 명령을 실행하여 대기열 크기를 늘린다고 가정해 보겠습니다. 업데이트의 일부로 새 컴퓨팅 노드가 시작됩니다. 그런 다음 Slurm 는 새 컴퓨팅 노드 중 하나에 작업을 대기열에 저장합니다. 이 경우 두 가지 모두 Slurm 와 는 새 컴퓨팅 노드를 감지srun하지 않습니다. 는 새 노드를 감지하지 못하므로 오류를 srun 반환합니다.

  • 해결 방법은?

    다시 시작 Slurm 모든 컴퓨팅 노드의 데몬을 사용한 다음 srun를 사용하여 작업을 제출합니다. 를 예약할 수 있습니다.Slurm 데몬은 컴퓨팅 노드를 다시 시작하는 scontrol reboot 명령을 실행하여 다시 시작합니다. 자세한 내용은 의 scontrol 재부팅을 참조하세요.Slurm . 수동으로 다시 시작할 수도 있습니다.Slurm 해당 systemd 서비스의 재시작을 요청하여 컴퓨팅 노드의 데몬.

작업이 squeue 명령을 실행한 CF 상태에서 멈췄습니다.

동적 노드의 전원을 켤 때 발생하는 문제일 수 있습니다. 자세한 내용은 컴퓨팅 노드 초기화 오류가 표시되는 경우 항목을 참조하세요.

대규모 작업을 실행한 후 nfsd: too many open connections, consider increasing the number of threads in /var/log/messages가 표시된 경우

네트워크로 연결된 파일 시스템에서 네트워크 제한에 도달하면 I/O 대기 시간도 늘어납니다. 네트워크가 네트워킹 및 I/O 지표 모두에 대한 데이터를 쓰는 데 사용되므로 소프트 록업이 발생할 수 있습니다.

5세대 인스턴스에서는 ENA 드라이버를 사용하여 패킷 카운터를 노출합니다. 이러한 카운터는 네트워크가 인스턴스 대역폭 한도에 도달할 AWS 때 모양이 지정된 패킷 수를 계산합니다. 이러한 카운터가 0보다 큰지 확인할 수 있습니다. 0보다 크다면 대역폭 한도를 초과한 것입니다. ethtool -S eth0 | grep exceeded를 실행하여 이러한 카운터를 볼 수 있습니다.

네트워크 제한 초과는 종종 너무 많은 NFS 연결을 지원한 결과입니다. 이는 네트워크 한도에 도달하거나 초과할 때 가장 먼저 확인해야 할 사항 중 하나입니다.

예를 들어 다음 출력은 누락된 패키지를 표시합니다.

$ ethtool -S eth0 | grep exceeded bw_in_allowance_exceeded: 38750610 bw_out_allowance_exceeded: 1165693 pps_allowance_exceeded: 103 conntrack_allowance_exceeded: 0 linklocal_allowance_exceeded: 0

이 메시지가 표시되지 않도록 헤드 노드 인스턴스 유형을 성능이 더 좋은 인스턴스 유형으로 변경하는 것이 좋습니다. 데이터 스토리지를 Amazon EFS 또는 Amazon 과 같이 NFS 공유로 내보내지 않은 공유 스토리지 파일 시스템으로 이동하는 것을 고려해 보세요FSx. 자세한 내용은 의 AWS ParallelCluster Wiki에서 공유 스토리지모범 사례를 참조하세요 GitHub.

MPI 작업 실행

디버그 모드 활성화

디버그 모드 열기MPI를 활성화하려면 디버깅에 도움이 MPI되는 컨트롤이 열려 있는 항목을 참조하세요.

IntelMPI 디버그 모드를 활성화하려면 기타 환경 변수 를 참조하세요.

작업 출력에서 MPI_ERRORS_ARE_FATALOPAL ERROR이 표시되는 경우

이러한 오류 코드는 애플리케이션의 MPI 계층에서 가져옵니다. 애플리케이션에서 MPI 디버그 로그를 가져오는 방법을 알아보려면 섹션을 참조하세요디버그 모드 활성화.

이 오류의 가능한 원인은 애플리케이션이 Open 과 같은 특정 MPI 구현을 위해 컴파일되었고 Intel MPI과 같은 다른 MPI 구현으로 실행하려고 하기 때문입니다MPI. 동일한 MPI 구현으로 애플리케이션을 컴파일하고 실행하는지 확인합니다.

관리형 DNS 비활성화 mpirun 상태에서 사용

/ Dns / DisableManagedDnsSlurmSettings UseEc2Hostnames가 로 설정된 클러스터true의 경우 Slurm 노드 이름은 에서 확인하지 않습니다DNS.Slurm nodenames 는 가 활성화되지 않은 경우와 에서 MPI 작업이 실행 중인 경우 MPI 프로세스를 부트스트랩할 수 있습니다.Slurm 컨텍스트. 의 지침을 따르는 것이 좋습니다. Slurm MPI 를 사용하여 MPI 작업을 실행하는 사용 설명서 Slurm.