翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
PCS AWS でクラスター環境を調べる
クラスターにログインしたら、シェルコマンドを実行できます。たとえば、ユーザーの変更、共有ファイルシステムのデータの操作、Slurm の操作を行うことができます。
ユーザーを変更する
Session Manager を使用してクラスターにログインしている場合は、 として接続されている可能性がありますssm-user。これは、Session Manager 用に作成された特別なユーザーです。次のコマンドを使用して、Amazon Linux 2023 のデフォルトユーザーに切り替えます。SSH を使用して接続した場合、これを行う必要はありません。
sudo su - ec2-user
共有ファイルシステムを操作する
EFS を使用して、EFS ファイルシステムと FSx for Lustre ファイルシステムが使用可能であることを確認しますdf -h。クラスターの出力は次のようになります。
[ec2-user@ip-10-3-6-103 ~]$ df -h Filesystem Size Used Avail Use% Mounted on devtmpfs 3.8G 0 3.8G 0% /dev tmpfs 3.9G 0 3.9G 0% /dev/shm tmpfs 3.9G 556K 3.9G 1% /run tmpfs 3.9G 0 3.9G 0% /sys/fs/cgroup /dev/nvme0n1p1 24G 18G 6.6G 73% / 127.0.0.1:/ 8.0E 0 8.0E 0% /home 10.3.132.79@tcp:/zlshxbev 1.2T 7.5M 1.2T 1% /shared tmpfs 780M 0 780M 0% /run/user/0 tmpfs 780M 0 780M 0% /run/user/1000
/home ファイルシステムは 127.0.0.1 をマウントし、非常に大容量です。これは、チュートリアルの前半で作成した EFS ファイルシステムです。ここで書き込まれたファイルは、クラスター内のすべてのノード/homeで で使用できます。
/shared ファイルシステムはプライベート IP をマウントし、容量は 1.2 TB です。これは、チュートリアルの前半で作成した FSx for Lustre ファイルシステムです。ここで書き込まれたファイルは、クラスター内のすべてのノード/sharedで で使用できます。
Slurm を操作する
キューとノードを一覧表示する
を使用して、キューとそれらが関連付けられているノードを一覧表示できますsinfo。クラスターからの出力は次のようになります。
[ec2-user@ip-10-3-6-103 ~]$ sinfo PARTITION AVAIL TIMELIMIT NODES STATE NODELIST demo up infinite 4 idle~ compute-1-[1-4] [ec2-user@ip-10-3-6-103 ~]$
という名前のパーティションを書き留めますdemo。ステータスは upで、最大 4 つのノードがあります。これは、ノードグループのcompute-1ノードに関連付けられます。コンピューティングノードグループを編集し、インスタンスの最大数を 8 に増やす8と、ノード数が を読み取り、ノードリストが を読み取りますcompute-1-[1-8]。4 つのノードtestを持つ という名前の 2 番目のコンピューティングノードグループを作成し、demoキューに追加した場合、それらのノードもノードリストに表示されます。
ジョブを表示する
を使用して、システム上のすべてのジョブを任意の状態で一覧表示できますsqueue。クラスターからの出力は次のようになります。
[ec2-user@ip-10-3-6-103 ~]$ squeue JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON)
Slurm ジョブが保留中または実行中の場合は、後でsqueueもう一度実行してみてください。