SGE and Torque integration processes Slurm integration processes

AWS ParallelCluster 프로세스

이 섹션은 지원되는 기존 작업 스케줄러 중 하나(SGE, Slurm 또는 Torque)를 사용하여 배포된 HPC 클러스터에만 적용됩니다. 이러한 스케줄러와 함께 사용할 경우는 Auto Scaling 그룹 및 기본 작업 스케줄러와 상호 작용하여 컴퓨팅 노드 프로비저닝 및 제거를 AWS ParallelCluster 관리합니다.

기반 HPC 클러스터의 경우 AWS Batch컴퓨팅 노드 관리를 AWS Batch 위해에서 제공하는 기능을 AWS ParallelCluster 사용합니다.

참고

버전 2.11.5부터 SGE 또는 Torque 스케줄러 사용을 지원하지 AWS ParallelCluster 않습니다. 2.11.4 이하의 버전에서는 계속 사용할 수 있지만 AWS 서비스 및 AWS 지원 팀의 향후 업데이트 또는 문제 해결 지원을 받을 수 없습니다.

`SGE and Torque integration processes`

참고

이 섹션은 AWS ParallelCluster 버전 2.11.4까지의 버전에만 적용됩니다. 버전 2.11.5부터 AWS ParallelCluster 은 Amazon SNS SGE 및 Torque 스케줄러 Amazon SQS의 사용을 지원하지 않습니다.

일반 개요

클러스터의 수명 주기는 사용자가 클러스터를 생성한 후 시작됩니다. 일반적으로 클러스터는 명령줄 인터페이스(CLI)에서 생성됩니다. 생성된 클러스터는 삭제될 때까지 존재합니다. AWS ParallelCluster 데몬은 주로 HPC 클러스터 탄력성을 관리하기 위해 클러스터 노드에서 실행됩니다. 다음 다이어그램은 사용자 워크플로우와 클러스터 수명 주기를 보여줍니다. 다음 섹션에서는 클러스터를 관리하는 데 사용되는 AWS ParallelCluster 데몬을 설명합니다.

SGE 및 Torque 스케줄러를 사용하면 , nodewatcher jobwatcher및 sqswatcher 프로세스를 AWS ParallelCluster 사용합니다.

`jobwatcher`

클러스터가 실행 중인 경우 루트 사용자가 소유한 프로세스가 구성된 스케줄러(SGE 또는 Torque)를 모니터링합니다. 1분마다 대기열을 평가하여 규모 스케일 업 시기를 결정합니다.

`sqswatcher`

sqswatcher 프로세스는 Auto Scaling에서 발송된 Amazon SQS 메시지를 모니터링합니다. 이 메시지는 클러스터 내의 상태 변경을 알립니다. 인스턴스가 온라인 상태가 되면 “인스턴스 준비” 메시지를 Amazon SQS에 제출합니다. 이 메시지는 헤드 노드에서 실행 중인 sqs_watcher에 의해 선택됩니다. 이러한 메시지는 새 인스턴스가 온라인으로 전환되거나 종료될 때 대기열 관리자에게 알리기 위해 사용되므로 대기열에 추가하거나 삭제할 수 있습니다.

`nodewatcher`

nodewatcher 프로세스는 컴퓨팅 플릿의 각 노드에서 실행됩니다. 사용자가 정의한 scaledown_idletime 기간 후에는 인스턴스가 종료됩니다.

`Slurm integration processes`

Slurm 스케줄러, AWS ParallelCluster 및 clustermgtd computemgt 프로세스를 사용합니다.

`clustermgtd`

이기종 모드(queue_settings 값 지정으로 표시)에서 실행되는 클러스터에는 헤드 노드에서 실행되는 클러스터 관리 대몬(daemon)(clustermgtd) 프로세스가 있습니다. 이러한 작업은 클러스터 관리 대몬(daemon)이 수행합니다.

비활성 파티션 정리
정적 용량 관리: 정적 용량이 항상 정상 상태인지 확인하세요.
스케줄러를 Amazon EC2와 동기화합니다.
분리된 인스턴스 정리
일시 중지 워크플로 외부에서 발생하는 Amazon EC2 종료 시 스케줄러 노드 상태 복원
비정상 Amazon EC2 인스턴스 관리(Amazon EC2 상태 확인 실패)
정기 유지 관리 이벤트 관리
비정상 스케줄러 노드 관리(스케줄러 상태 점검 실패)

`computemgtd`

이기종 모드(queue_settings 값 지정으로 표시)에서 실행되는 클러스터에는 각 컴퓨팅 노드에서 실행되는 컴퓨팅 관리 대몬(daemon)(computemgtd) 프로세스가 있습니다. 컴퓨팅 관리 대몬(daemon)은 5분마다 헤드 노드에 연결할 수 있고 정상 상태인지 확인합니다. 헤드 노드에 도달할 수 없거나 정상이 아닌 상태로 5분이 경과하면 컴퓨팅 노드가 종료됩니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

AWS ParallelCluster 작동 방식

AWS 에서 사용하는 서비스 AWS ParallelCluster