本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
AWS PCS 中的概念
AWS PCS 中的一个集群有 1 个或多个队列,这些队列与至少 1 个计算节点组相关联。作业提交到队列并在计算节点组定义的 EC2 实例上运行。您可以使用这些基础来实现复杂的 HPC 架构。
集群
集群是一种用于管理资源和运行工作负载的资源。集群是一种 AWS PCS 资源,它定义了计算、网络、存储、身份和作业调度器配置的组合。您可以通过指定要使用的任务计划程序(当前为 Slurm)、想要的调度器配置、要管理集群的服务控制器以及要在哪个 VPC 中启动集群资源来创建集群。调度器接受和调度作业,还启动处理这些任务的计算节点(EC2 实例)。
计算节点组
计算节点组是 AWS PCS 用来运行作业或提供对集群的交互式访问的计算节点的集合。在定义计算节点组时,您需要指定常见特征, EC2 例如 Amazon 实例类型、最小和最大实例数、目标 VPC 子网、Amazon 系统映像 (AMI)、购买选项和自定义启动配置。 AWS PCS 使用这些设置来高效启动、管理和终止计算节点组中的计算节点。
队列
当你想在特定集群上运行作业时,可以将其提交到特定的队列(有时也称为分区)。在 AWS PCS 安排作业在计算节点组上运行之前,该作业将一直保留在队列中。您可以将一个或多个计算节点组与每个队列相关联。需要一个队列才能使用作业调度器提供的各种调度策略在底层计算节点组资源上调度和执行作业。用户不会直接向计算节点或计算节点组提交作业。
系统管理员
系统管理员部署、维护和操作集群。他们可以通过 AWS Management Console、 AWS PCS API 和 AWS SDK 访问 AWS PCS。他们可以通过 SSH 访问特定的集群 AWS Systems Manager,或者在那里他们可以运行管理任务、运行作业、管理数据和执行其他基于 shell 的活动。有关更多信息,请参阅 AWS Systems Manager 文档。
最终用户
最终用户没有 day-to-day责任部署或操作集群。他们使用终端接口(例如 SSH)来访问群集资源、运行作业、管理数据和执行其他基于 shell 的活动。