

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 在 AWS PCS 中创建集群
<a name="working-with_clusters_create"></a>

本主题概述了可用选项，并介绍了在并 AWS 行计算服务 (AWS PCS) 中创建集群时应考虑的事项。如果这是您第一次创建 AWS PCS 集群，我们建议您遵循此操作[开始使用并 AWS 行计算服务](getting-started.md)。本教程可以帮助您创建可运行的 HPC 系统，而无需扩展到所有可能的可用选项和系统架构。

**注意**  
创建集群后，您可以修改许多配置设置，而无需重建基础架构。有关更多信息，请参阅 [在 AWS PCS 中更新集群](working-with_clusters_update.md)。

**注意**  
您可以配置自定义 Slurm 设置以实现高级调度策略和资源管理。有关更多信息，请参阅 [在 PCS 中配置自定义 Slurm 设置 AWS](slurm-custom-settings.md)。

## 先决条件
<a name="working-with_clusters_create_prereqs"></a>
+  符合[AWS PCS 联网](working-with_networking.md)要求的现有 VPC 和子网。在部署集群用于生产用途前，我们建议您彻底了解 VPC 和子网要求。要创建 VPC 和子网，请参阅[为您的 PC AWS S 集群创建 VPC](working-with_networking_create-vpc.md)。
+  有权创建和管理 AWS PCS 资源的 [IAM 委托](https://docs.aws.amazon.com/IAM/latest/UserGuide/id_roles_terms-and-concepts.html)人。有关更多信息，请参阅 [并 AWS 行计算服务的 Identity and Access 管理](security-iam.md)。

## 创建 AWS PCS 集群
<a name="working-with_clusters_create_cluster"></a>

您可以使用 AWS 管理控制台 或 AWS CLI 来创建集群。

------
#### [ AWS 管理控制台 ]

**创建集群**

1.  **在 [https://console.aws.amazon.com/pcs/home\$1/clusters 上打开 AWS PCS 控制台，然后选择创建集群](https://console.aws.amazon.com/pcs/home#/clusters)。**

1.  在**集群设置**部分中，输入以下字段：
   +  **集群名称**-您的集群的名称。名称只能包含字母数字字符（区分大小写）和连字符。它必须以字母字符开头，长度不能超过 40 个字符。该名称在创建集群时 AWS 区域 AWS 账户 使用的名称必须是唯一的。
   +  **调度程序**-选择调度程序和版本。有关更多信息，请参阅 [PCS 中的 Slurm 版本 AWS](slurm-versions.md)。
   +  **控制器大小**-选择控制器的大小。这决定了 AWS PCS 集群可以管理多少并发任务和计算节点。您只能在创建集群时设置控制器的大小。有关尺码的更多信息，请参阅[AWS PCS 中的集群大小](working-with_clusters_size.md)。

1.  在 “**网络**” 部分中，为以下字段选择值：
   +  **网络类型**-为您的集群选择 IP 地址类型。您的集群可以同时使用 IPv4 或 IPv6，但不能同时使用两者。VPC 和子网必须使用相同的网络地址类型。每个子网使用的 IP 地址块必须至少有 1 个可用地址。 AWS 在每个子网中保留一些地址。有关更多信息，请参阅《*Amazon VPC 用户指南*》中的[子网 CIDR 块](https://docs.aws.amazon.com/vpc/latest/userguide/subnet-sizing.html)。
   +  **VPC** — 选择一个满足 AWS PCS 要求的现有 VPC。有关更多信息，请参阅 [AWS PCS VPC 和子网要求和注意事项](working-with_networking_vpc-requirements.md)。创建集群后，您无法更改其 VPC。如果未 VPCs 列出，则必须先创建一个。
   +  **子网**-列出了所选 VPC 中的所有可用子网。选择符合 AWS PCS 子网要求的子网。有关更多信息，请参阅 [AWS PCS VPC 和子网要求和注意事项](working-with_networking_vpc-requirements.md)。我们建议您选择私有子网，以避免将您的调度程序端点暴露给公共 Internet。
   +  **安全组**-指定您希望 AWS PCS 与其为集群创建的网络接口关联的安全组。您必须至少选择一个允许集群与其计算节点之间通信的安全组。您可以选择 “**快速创建安全组**”，让 AWS PCS 在选定的 VPC 中创建具有必要配置的安全组，也可以选择现有安全组。有关更多信息，请参阅 [安全组要求和注意事项](working-with_networking_sg.md#working-with_networking_sg-requirements)。

1.  （可选）在 **Slurm 记账配置**部分，您可以启用 Slurm 记账并设置记账参数。有关更多信息，请参阅 [PCS 中的 Slurm 会计 AWS](slurm-accounting.md)。

1.  （可选）在 **Slurm 配置**部分，您可以添加参数名称和值对来配置其他 Slurm 设置。有关支持的参数的完整列表，请参阅[PCS 集群的自定义 Slurm 设置 AWS](slurm-custom-settings-cluster.md)。

1.  （可选）在 “**标签**” 下，将所有标签添加到您的 AWS PCS 集群。

1.  选择**创建集群**。 AWS PCS 创建集群`Creating`时会显示**状态**字段。此过程可能耗时数分钟。

**重要**  
 AWS 区域 每个集群只能有 1 个处于同一个`Creating`状态的集群 AWS 账户。 AWS 如果您在尝试创建集群时已有处于`Creating`状态的集群，PCS 会返回错误。

------
#### [ AWS CLI ]

**创建集群**

1.  使用以下命令创建集群。在运行命令之前，进行以下替换：
   +  *region*替换为您要 AWS 区域 在其中创建集群的 ID，例如`us-east-1`。
   +  将 *my-cluster* 替换为您的集群名称。名称只能包含字母数字字符（区分大小写）和连字符。它必须以字母字符开头，长度不能超过 40 个字符。该名称在创建集群的 AWS 账户 位置 AWS 区域 和创建集群的地方必须是唯一的。
   +  *25.05*替换为任何支持的 Slurm 版本。
**注意**  
AWS PCS 目前支持 Slurm 25.05 和 24.11。
   +  *SMALL*替换为任何支持的群集大小。这决定了 AWS PCS 集群可以管理多少并发任务和计算节点。它只能在创建集群时进行设置。有关尺码的更多信息，请参阅[AWS PCS 中的集群大小](working-with_clusters_size.md)。
   + 的值替换为您自己的值。`subnetIds`我们建议您选择私有子网，以避免将您的调度程序端点暴露给公共 Internet。
   + 指定您希望 AWS PCS 与它为集群创建的网络接口关联的。`securityGroupIds`安全组必须与集群位于同一 VPC 中。您必须至少选择一个允许集群与其计算节点之间通信的安全组。有关更多信息，请参阅 [安全组要求和注意事项](working-with_networking_sg.md#working-with_networking_sg-requirements)。

   ```
   aws pcs create-cluster --region region \
       --cluster-name my-cluster \
       --scheduler type=SLURM,version=25.05 \
       --size SMALL \
       --networking subnetIds=subnet-ExampleId1,securityGroupIds=sg-ExampleId1
   ```
   + 要使用 IPv6，请`networkType=IPV6`添加到`--networking`配置中。

     ```
       --networking networkType=IPV6,subnetIds=subnet-ExampleId1,securityGroupIds=sg-ExampleId1
     ```
   +  或者，您可以添加自定义 Slurm 行为的`--slurm-configration`选项并指定 Slurm 配置选项。以下示例将缩减空闲时间设置为 60 分钟（3600 秒），启用 Slurm 记账，并将`slurm.conf`设置指定为的值。`slurmCustomSettings`有关更多信息，请参阅 [PCS 中的 Slurm 会计 AWS](slurm-accounting.md)。
**注意**  
Slurm 24.11 或更高版本支持记账。

     ```
     aws pcs create-cluster --region region \
         --cluster-name my-cluster \
         --scheduler type=SLURM,version=25.05 \
         --size SMALL \
         --networking subnetIds=subnet-ExampleId1,securityGroupIds=sg-ExampleId1
         --slurm-configuration scaleDownIdleTimeInSeconds=3600,accounting='{mode=STANDARD}',slurmCustomSettings='[{parameterName=SelectTypeParameters,parameterValue=CR_CPU_Memory}]'
     ```

1. 配置集群可能需要几分钟。可使用以下命令查询集群的状态。在集群的状态字段变为之前，请勿继续创建队列或计算节点组`ACTIVE`。

   ```
   aws pcs get-cluster --region region --cluster-identifier my-cluster
   ```

**重要**  
 AWS 区域 每个集群只能有 1 个处于同一个`Creating`状态的集群 AWS 账户。 AWS 如果您在尝试创建集群时已有处于`Creating`状态的集群，PCS 会返回错误。

------

**为您的集群推荐的后续步骤**
+ 添加计算节点组。
+ 添加队列。
+ 启用日志记录。