

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# PCS AWS でクラスター環境を調べる
<a name="getting-started_explore"></a>

 クラスターにログインしたら、シェルコマンドを実行できます。例えば、ユーザーの変更、共有ファイルシステムのデータの操作、Slurm の操作を行うことができます。

## ユーザーの変更
<a name="getting-started_explore_change-user"></a>

 Session Manager を使用してクラスターにログインしている場合は、 として接続されている可能性があります`ssm-user`。これは、Session Manager 用に作成された特別なユーザーです。次のコマンドを使用して、Amazon Linux 2 のデフォルトユーザーに切り替えます。SSH を使用して接続している場合は、これを行う必要はありません。

```
sudo su - ec2-user
```

## 共有ファイルシステムの使用
<a name="getting-started_explore_fs"></a>

コマンド を使用して、EFS ファイルシステムと FSx for Lustre ファイルシステムが使用可能であることを確認できます`df -h`。クラスターの出力は次のようになります。

```
[ec2-user@ip-10-3-6-103 ~]$ df -h
Filesystem                 Size  Used Avail Use% Mounted on
devtmpfs                   3.8G     0  3.8G   0% /dev
tmpfs                      3.9G     0  3.9G   0% /dev/shm
tmpfs                      3.9G  556K  3.9G   1% /run
tmpfs                      3.9G     0  3.9G   0% /sys/fs/cgroup
/dev/nvme0n1p1              24G   18G  6.6G  73% /
127.0.0.1:/                8.0E     0  8.0E   0% /home
10.3.132.79@tcp:/zlshxbev  1.2T  7.5M  1.2T   1% /shared
tmpfs                      780M     0  780M   0% /run/user/0
tmpfs                      780M     0  780M   0% /run/user/1000
```

 `/home` ファイルシステムは 127.0.0.1 をマウントし、非常に大きな容量を持ちます。これは、チュートリアルの前半で作成した EFS ファイルシステムです。ここで書き込まれたファイルは、クラスター内のすべてのノード`/home`の で使用できます。

 `/shared` ファイルシステムはプライベート IP をマウントし、容量は 1.2 TB です。これは、チュートリアルの前半で作成した FSx for Lustre ファイルシステムです。ここで書き込まれたファイルは、クラスター内のすべてのノード`/shared`の で使用できます。

## Slurm を操作する
<a name="getting-started_explore_slurm"></a>

**Contents**
+ [キューとノードを一覧表示する](#getting-started_explore_slurm_queues)
+ [ジョブの表示](#getting-started_explore_slurm_jobs)

### キューとノードを一覧表示する
<a name="getting-started_explore_slurm_queues"></a>

 を使用して、キューとそれらが関連付けられているノードを一覧表示できます`sinfo`。クラスターからの出力は次のようになります。

```
[ec2-user@ip-10-3-6-103 ~]$ sinfo
PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
demo         up   infinite      4  idle~ compute-1-[1-4]
[ec2-user@ip-10-3-6-103 ~]$
```

 という名前のパーティションを書き留めます`demo`。ステータスは `up`で、最大 4 つのノードがあります。これは、ノードグループの`compute-1`ノードに関連付けられます。コンピューティングノードグループを編集し、インスタンスの最大数を 8 に増やす`8`と、ノードの数は を読み取り、ノードリストは を読み取ります`compute-1-[1-8]`。4 つのノード`test`を持つ という名前の 2 番目のコンピューティングノードグループを作成し、`demo`キューに追加した場合、それらのノードもノードリストに表示されます。

### ジョブの表示
<a name="getting-started_explore_slurm_jobs"></a>

 を使用して、システム上の任意の状態のすべてのジョブを一覧表示できます`squeue`。クラスターからの出力は次のようになります。

```
[ec2-user@ip-10-3-6-103 ~]$ squeue
JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON)
```

Slurm ジョブが保留中または実行中になったら、後で`squeue`もう一度実行してみてください。