기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
AWS ParallelCluster 프로세스
이 섹션은 지원되는 기존 작업 스케줄러 중 하나(SGE, Slurm 또는 Torque)를 사용하여 배포된 HPC 클러스터에만 적용됩니다. 이러한 스케줄러와 함께 사용할 경우는 Auto Scaling 그룹 및 기본 작업 스케줄러와 상호 작용하여 컴퓨팅 노드 프로비저닝 및 제거를 AWS ParallelCluster 관리합니다.
기반 HPC 클러스터의 경우 AWS Batch컴퓨팅 노드 관리를 AWS Batch 위해에서 제공하는 기능을 AWS ParallelCluster 사용합니다.
참고
버전 2.11.5부터 SGE 또는 Torque 스케줄러 사용을 지원하지 AWS ParallelCluster 않습니다. 2.11.4 이하의 버전에서는 계속 사용할 수 있지만 AWS 서비스 및 AWS 지원 팀의 향후 업데이트 또는 문제 해결 지원을 받을 수 없습니다.
SGE and Torque integration processes
참고
이 섹션은 AWS ParallelCluster 버전 2.11.4까지의 버전에만 적용됩니다. 버전 2.11.5부터 AWS ParallelCluster 은 Amazon SNS SGE 및 Torque 스케줄러 Amazon SQS의 사용을 지원하지 않습니다.
일반 개요
클러스터의 수명 주기는 사용자가 클러스터를 생성한 후 시작됩니다. 일반적으로 클러스터는 명령줄 인터페이스(CLI)에서 생성됩니다. 생성된 클러스터는 삭제될 때까지 존재합니다. AWS ParallelCluster 데몬은 주로 HPC 클러스터 탄력성을 관리하기 위해 클러스터 노드에서 실행됩니다. 다음 다이어그램은 사용자 워크플로우와 클러스터 수명 주기를 보여줍니다. 다음 섹션에서는 클러스터를 관리하는 데 사용되는 AWS ParallelCluster 데몬을 설명합니다.

SGE 및 Torque 스케줄러를 사용하면 , nodewatcher
jobwatcher
및 sqswatcher
프로세스를 AWS ParallelCluster 사용합니다.
jobwatcher
클러스터가 실행 중인 경우 루트 사용자가 소유한 프로세스가 구성된 스케줄러(SGE 또는 Torque)를 모니터링합니다. 1분마다 대기열을 평가하여 규모 스케일 업 시기를 결정합니다.

sqswatcher
sqswatcher
프로세스는 Auto Scaling에서 발송된 Amazon SQS 메시지를 모니터링합니다. 이 메시지는 클러스터 내의 상태 변경을 알립니다. 인스턴스가 온라인 상태가 되면 “인스턴스 준비” 메시지를 Amazon SQS에 제출합니다. 이 메시지는 헤드 노드에서 실행 중인 sqs_watcher
에 의해 선택됩니다. 이러한 메시지는 새 인스턴스가 온라인으로 전환되거나 종료될 때 대기열 관리자에게 알리기 위해 사용되므로 대기열에 추가하거나 삭제할 수 있습니다.

nodewatcher
nodewatcher
프로세스는 컴퓨팅 플릿의 각 노드에서 실행됩니다. 사용자가 정의한 scaledown_idletime
기간 후에는 인스턴스가 종료됩니다.

Slurm integration processes
Slurm 스케줄러, AWS ParallelCluster 및 clustermgtd
computemgt
프로세스를 사용합니다.
clustermgtd
이기종 모드(queue_settings 값 지정으로 표시)에서 실행되는 클러스터에는 헤드 노드에서 실행되는 클러스터 관리 대몬(daemon)(clustermgtd
) 프로세스가 있습니다. 이러한 작업은 클러스터 관리 대몬(daemon)이 수행합니다.
-
비활성 파티션 정리
-
정적 용량 관리: 정적 용량이 항상 정상 상태인지 확인하세요.
-
스케줄러를 Amazon EC2와 동기화합니다.
-
분리된 인스턴스 정리
-
일시 중지 워크플로 외부에서 발생하는 Amazon EC2 종료 시 스케줄러 노드 상태 복원
-
비정상 Amazon EC2 인스턴스 관리(Amazon EC2 상태 확인 실패)
-
정기 유지 관리 이벤트 관리
-
비정상 스케줄러 노드 관리(스케줄러 상태 점검 실패)
computemgtd
이기종 모드(queue_settings 값 지정으로 표시)에서 실행되는 클러스터에는 각 컴퓨팅 노드에서 실행되는 컴퓨팅 관리 대몬(daemon)(computemgtd
) 프로세스가 있습니다. 컴퓨팅 관리 대몬(daemon)은 5분마다 헤드 노드에 연결할 수 있고 정상 상태인지 확인합니다. 헤드 노드에 도달할 수 없거나 정상이 아닌 상태로 5분이 경과하면 컴퓨팅 노드가 종료됩니다.