

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 探索 AWS PCS 中的集群环境
<a name="getting-started_explore"></a>

 登录到集群后，您可以运行 shell 命令。例如，您可以更改用户、处理共享文件系统上的数据以及与 Slurm 交互。

## 更改用户
<a name="getting-started_explore_change-user"></a>

 如果您使用会话管理器登录到集群，则可能以身份进行连接`ssm-user`。这是为会话管理器创建的特殊用户。使用以下命令在 Amazon Linux 2 上切换到默认用户。如果您使用 SSH 连接，则无需执行此操作。

```
sudo su - ec2-user
```

## 使用共享文件系统
<a name="getting-started_explore_fs"></a>

您可以使用命令确认 EFS 文件系统和 FSx Lustre 文件系统是否可用。`df -h`集群上的输出应类似于以下内容：

```
[ec2-user@ip-10-3-6-103 ~]$ df -h
Filesystem                 Size  Used Avail Use% Mounted on
devtmpfs                   3.8G     0  3.8G   0% /dev
tmpfs                      3.9G     0  3.9G   0% /dev/shm
tmpfs                      3.9G  556K  3.9G   1% /run
tmpfs                      3.9G     0  3.9G   0% /sys/fs/cgroup
/dev/nvme0n1p1              24G   18G  6.6G  73% /
127.0.0.1:/                8.0E     0  8.0E   0% /home
10.3.132.79@tcp:/zlshxbev  1.2T  7.5M  1.2T   1% /shared
tmpfs                      780M     0  780M   0% /run/user/0
tmpfs                      780M     0  780M   0% /run/user/1000
```

 `/home`文件系统装载了 127.0.0.1，容量非常大。这是您在本教程前面部分创建的 EFS 文件系统。此处写入的所有文件都将在集群中的所有节点`/home`上都可用。

 `/shared`文件系统挂载一个私有 IP，容量为 1.2 TB。这是您在本教程前面 FSx 部分创建的 for Lustre 文件系统。此处写入的所有文件都将在集群中的所有节点`/shared`上都可用。

## 与 Slurm 互动
<a name="getting-started_explore_slurm"></a>

**Contents**
+ [列出队列和节点](#getting-started_explore_slurm_queues)
+ [显示职位](#getting-started_explore_slurm_jobs)

### 列出队列和节点
<a name="getting-started_explore_slurm_queues"></a>

 您可以使用列出队列及其关联的节点`sinfo`。集群的输出应类似于以下内容：

```
[ec2-user@ip-10-3-6-103 ~]$ sinfo
PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
demo         up   infinite      4  idle~ compute-1-[1-4]
[ec2-user@ip-10-3-6-103 ~]$
```

 记下名为的分区`demo`。它的状态为`up`，最多有 4 个节点。它与节点组中的`compute-1`节点相关联。如果您编辑计算节点组并将最大实例数增加到 8，则会读取节点数`8`并读取节点列表`compute-1-[1-8]`。如果您创建了第二个名为 4 个节点`test`的计算节点组，并将其添加到`demo`队列中，则这些节点也将显示在节点列表中。

### 显示职位
<a name="getting-started_explore_slurm_jobs"></a>

 您可以使用列出系统上所有处于任何状态的作业`squeue`。集群的输出应类似于以下内容：

```
[ec2-user@ip-10-3-6-103 ~]$ squeue
JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON)
```

当你有 Slurm 任务待处理或正在运行时，请稍后`squeue`再试运行。