AWS ParallelCluster 프로세스 - AWS ParallelCluster

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

AWS ParallelCluster 프로세스

이 섹션은 와 함께 배포된 클러스터에 적용됩니다.Slurm. 이 스케줄러와 함께 사용할 경우 기본 작업 스케줄러와 상호 작용하여 컴퓨팅 노드 프로비저닝 및 제거를 AWS ParallelCluster 관리합니다.

를 기반으로 하는 HPC 클러스터의 경우 AWS Batch는 컴퓨팅 노드 관리를 AWS Batch 위해 에서 제공하는 기능을 AWS ParallelCluster 사용합니다.

clustermgtd

클러스터 관리 대몬(daemon)은 다음 작업을 수행합니다.

  • 비활성 파티션 정리

  • 관리 Slurm 용량 블록과 연결된 예약 및 노드(다음 섹션 참조)

  • 정적 용량 관리: 정적 용량이 항상 정상 상태인지 확인하세요.

  • 스케줄러를 Amazon EC2 와 동기화합니다.

  • 분리된 인스턴스 정리

  • 일시 중지 워크플로 외부에서 발생하는 Amazon EC2 종료 시 스케줄러 노드 상태 복원

  • 비정상 Amazon EC2 인스턴스 관리(Amazon EC2 상태 확인 실패)

  • 정기 유지 관리 이벤트 관리

  • 비정상 스케줄러 노드 관리(스케줄러 상태 점검 실패)

관리 Slurm 용량 블록에 연결된 예약 및 노드

ParallelCluster 는 온디맨드 용량 예약(ODCR) 및 Machine Learning(CB)용 용량 블록을 지원합니다. 와 달리 ODCRCB는 향후 시작 시간이 있을 수 있으며 시간 제한이 있습니다.

Clustermgtd는 루프에서 비정상 노드를 검색하고 중단된 모든 Amazon EC2 인스턴스를 종료하여 정적 노드인 경우 새 인스턴스로 대체합니다.

ParallelCluster 는 용량 블록과 연결된 정적 노드를 다르게 관리합니다. CB가 아직 활성화되지 않은 경우에도 클러스터를 AWS ParallelCluster 생성하고 CB가 활성화되면 인스턴스가 자동으로 시작됩니다.

는 Slurm 아직 활성화되지 CBs 않은 와 연결된 컴퓨팅 리소스에 해당하는 노드는 CB 시작 시간에 도달할 때까지 유지 관리 상태로 유지됩니다.Slurm 노드는 와 연결된 예약/유지 관리 상태로 유지됩니다.Slurm 관리자 사용자, 즉 작업을 수락할 수 있지만 작업이 Slurm 예약이 제거됩니다.

Clustermgtd는 자동으로 생성/삭제됩니다.Slurm 예약, CB 상태에 따라 관련 CB 노드를 유지 관리 중. CB가 활성화되면 Slurm 예약이 제거되고 노드가 시작되며 보류 중인 작업 또는 새 작업 제출에 사용할 수 있게 됩니다.

CB 종료 시간에 도달하면 노드가 예약/유지보수 상태로 다시 이동합니다. CB가 더 이상 활성화되지 않고 인스턴스가 종료되면 새 대기열/컴퓨트 리소스에 작업을 다시 제출/다시 대기열에 추가하는 것은 사용자의 책임입니다.

clusterstatusmgtd

클러스터 상태 관리 대몬(daemon)은 컴퓨팅 플릿 상태 업데이트를 관리합니다. DynamoDB 테이블에 저장된 플릿 상태를 매분 가져오고 모든 STOP/START 요청을 관리합니다.

computemgtd

컴퓨팅 관리 대몬(daemon)(computemgtd) 프로세스는 각 클러스터 컴퓨팅 노드에서 실행됩니다. 컴퓨팅 관리 대몬(daemon)은 5분마다 헤드 노드에 연결할 수 있고 정상 상태인지 확인합니다. 헤드 노드에 도달할 수 없거나 정상이 아닌 상태로 5분이 경과하면 컴퓨팅 노드가 종료됩니다.