기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
에서 클러스터 환경 살펴보기 AWS PCS
클러스터에 로그인한 후 셸 명령을 실행할 수 있습니다. 예를 들어 사용자를 변경하고, 공유 파일 시스템의 데이터로 작업하고, Slurm과 상호 작용할 수 있습니다.
사용자 변경
세션 관리자를 사용하여 클러스터에 로그인한 경우 로 연결되었을 수 있습니다ssm-user
. 이 사용자는 세션 관리자용으로 생성된 특수 사용자입니다. 다음 명령을 사용하여 Amazon Linux 2에서 기본 사용자로 전환합니다. 를 사용하여 연결한 경우에는 이 작업을 수행할 필요가 없습니다SSH.
sudo su - ec2-user
공유 파일 시스템으로 작업하세요
명령을 사용하여 EFS 파일 시스템 및 Lustre 파일 시스템을 FSx 사용할 수 있는지 확인할 수 있습니다. df -h
클러스터의 출력은 다음과 비슷해야 합니다.
[ec2-user@ip-10-3-6-103 ~]$ df -h Filesystem Size Used Avail Use% Mounted on devtmpfs 3.8G 0 3.8G 0% /dev tmpfs 3.9G 0 3.9G 0% /dev/shm tmpfs 3.9G 556K 3.9G 1% /run tmpfs 3.9G 0 3.9G 0% /sys/fs/cgroup /dev/nvme0n1p1 24G 18G 6.6G 73% / 127.0.0.1:/ 8.0E 0 8.0E 0% /home 10.3.132.79@tcp:/zlshxbev 1.2T 7.5M 1.2T 1% /shared tmpfs 780M 0 780M 0% /run/user/0 tmpfs 780M 0 780M 0% /run/user/1000
/home
파일 시스템은 127.0.0.1을 마운트하며 용량이 매우 큽니다. 이 파일 시스템은 자습서 EFS 앞부분에서 만든 파일 시스템입니다. 여기에 작성된 모든 파일은 클러스터의 모든 /home
노드에서 사용할 수 있습니다.
/shared
파일 시스템은 사설 IP를 마운트하며 용량은 1.2TB입니다. 이 파일은 자습서 FSx 앞부분에서 만든 Lustre 파일 시스템용 파일 시스템입니다. 여기에 작성된 모든 파일은 클러스터의 모든 /shared
노드에서 사용할 수 있습니다.
Slurm과 상호작용하세요
대기열 및 노드 목록
대기열과 해당 대기열이 사용하는 노드를 나열할 수 있습니다. sinfo
클러스터의 출력은 다음과 비슷해야 합니다.
[ec2-user@ip-10-3-6-103 ~]$ sinfo PARTITION AVAIL TIMELIMIT NODES STATE NODELIST demo up infinite 4 idle~ compute-1-[1-4] [ec2-user@ip-10-3-6-103 ~]$
이름이 지정된 demo
파티션을 기록해 두십시오. 상태는 up
이며 최대 4개의 노드가 있습니다. compute-1
노드 그룹의 노드와 연결됩니다. 컴퓨팅 노드 그룹을 편집하고 최대 인스턴스 수를 8개로 늘리면 노드 수가 읽고 8
노드 목록이 읽힙니다compute-1-[1-8]
. 노드 test
4개로 명명된 두 번째 컴퓨팅 노드 그룹을 생성하여 demo
대기열에 추가하면 해당 노드도 노드 목록에 표시됩니다.
작업 보기
를 사용하여 시스템의 모든 작업을 어떤 상태로든 나열할 수 squeue
있습니다. 클러스터의 출력은 다음과 비슷해야 합니다.
[ec2-user@ip-10-3-6-103 ~]$ squeue JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON)
나중에 Slurm 작업이 보류 중이거나 실행 중일 때 squeue
다시 실행해 보십시오.