本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
使用 Slurm 会计创建集群
了解如何使用 Slurm 会计配置和创建集群。有关更多信息,请参阅 AWS ParallelCluster 的 Slurm 会计。
使用 AWS ParallelCluster 命令行界面 (CLI) 或 API 时,您只需为创建或更新 AWS ParallelCluster 映像和集群时创建的 AWS 资源付费。有关更多信息,请参阅 AWS ParallelCluster 使用的 AWS 服务。
PCUI 基于无服务器的架构而构建,在大多数情况下,可以在 AWS Free Tier 类别中使用。有关更多信息,请参阅 PCUI 成本。
在本教程中,您将使用 CloudFormation 快速创建模板(us-east-1)
注意
从版本 3.3.0 开始,AWS ParallelCluster 通过集群配置参数 SlurmSettings/Database 支持 Slurm 会计。
注意
快速创建模板用作一个示例。此模板并不涵盖 Slurm 会计数据库服务器的所有可能用例。您负责创建配置和容量适合您的生产工作负载的数据库服务器。
先决条件:
-
AWS ParallelCluster已安装 安装 AWS ParallelCluster 命令行界面 (CLI)。
-
您有一个 Amazon EC2 密钥对。
-
您在其中部署快速创建模板的区域支持 Amazon Aurora MySQL Serverless v2。有关更多信息,请参阅适用于 Aurora MySQL 的 Aurora Serverless v2。
步骤 1:为 AWS ParallelCluster 创建 VPC 和子网
要将提供的 CloudFormation 模板用于 Slurm 会计数据库,您必须已经设置好可供集群使用的 VPC。您可以手动设置,也可以在使用 AWS ParallelCluster 命令行界面配置和创建集群的过程中进行设置。如果您已经使用 AWS ParallelCluster,则可能已经具有可用来部署集群和数据库服务器的 VPC。
步骤 2:创建数据库堆栈
使用 CloudFormation 快速创建模板(us-east-1)
-
数据库服务器凭证,特别是管理员用户名和密码。
-
Amazon Aurora 无服务器集群的大小。这取决于预期的集群负载。
-
网络参数,特别是目标 VPC 和子网或用于创建子网的 CIDR 块。
为您的数据库服务器选择适当的凭证和大小。对于网络选项,您必须使用 AWS ParallelCluster 集群部署到的同一个 VPC。您可以为数据库创建子网并将其作为输入传递给模板。或者,为两个子网提供两个不相交的 CIDR 块,然后让 CloudFormation 模板为 CIDR 块创建这两个子网。确保 CIDR 块不与现有子网重叠。如果 CIDR 块与现有子网重叠,则无法创建堆栈。
创建数据库服务器需要几分钟时间。
步骤 3:在启用 Slurm 会计的情况下创建集群
提供的 CloudFormation 模板可生成一个包含部分已定义输出的 CloudFormation 堆栈。从 AWS Management Console中,您可以在 CloudFormation 堆栈视图的输出选项卡中查看输出。要启用 Slurm 会计,必须在 AWS ParallelCluster 集群配置文件中使用下面的一些输出:
-
DatabaseHost
:用于 SlurmSettings/Database/Uri 集群配置参数。 -
DatabaseAdminUser
:用于 SlurmSettings/Database/UserName 集群配置参数值。 -
DatabaseSecretArn
:用于 SlurmSettings/Database/PasswordSecretArn 集群配置参数。 -
DatabaseClientSecurityGroup
:这是 HeadNode/Networking/SecurityGroups 配置参数中定义的附加到集群头节点的安全组。
使用输出值更新您的集群配置文件 Database
参数。使用 pcluster CLI 创建集群。
$
pcluster create-cluster -n
cluster-3.x
-cpath/to/cluster-config.yaml
创建集群后,您可以开始使用 Slurm 会计命令,例如 sacctmgr
或 sacct
。