本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
创建 SageMaker HyperPod 集群
请参阅以下有关使用 SageMaker HyperPod 控制台 UI 创建新 SageMaker HyperPod 集群的说明。
-
打开 Amazon A SageMaker I 控制台,网址为https://console.aws.amazon.com/sagemaker/
。 -
在左侧导航窗格中选择HyperPod 集群。
-
在 SageMaker HyperPod 登录页面中,选择创建 HyperPod 集群。
-
从创建 HyperPod集群的下拉菜单中,选择由 Amazon EKS 编排。
-
从 Amazon EKS 集群列表中,选择要用来配置新集群的 EKS HyperPod 集群。
-
如果您需要创建新的 EKS 集群,请选择创建 EKS 集群。您可以从 EKS 集群列表页面创建它,而无需打开 Amazon EKS 管理控制台。
注意
您选择的 VPC 子网必须是私 HyperPod 有的。
-
提交新的 EKS 集群创建请求后,请等待 EKS 集群变为活动状态。
-
按照 使用 Helm 在 Amazon EKS 集群上安装软件包 中的说明安装 Helm 图表。
-
EKS 集群创建完成后,选择创建 HyperPod 集群,然后再次选择 E KS 编排。您应该可以找到并选择新的 EKS 集群。要继续,请选择选择。
-
-
在配置新 HyperPod集群页面上,设置集群的基本信息,例如名称、启用 HyperPod 集群弹性功能的选项和标签。
-
在集群名称中,指定新集群的名称。
-
对于集群弹性-节点恢复,
Automatic
请指定启用自动节点恢复。 SageMaker HyperPod当运行状况监控代理发现问题时,替换或重启实例(节点)。 -
对于标签,向新集群添加密钥和值对,并将集群作为 AWS 资源进行管理。要了解更多信息,请参阅为AWS 资源添加标签。
-
在步骤 2:配置实例组中,选择创建实例组。每个实例组都可以进行不同的配置,您可以创建一个异构集群,该集群由具有不同实例类型的多个实例组组成。在弹出的创建实例组配置窗口中,填写实例组配置信息。
弹出创建实例组页面,按照用户界面指南配置新实例组。
-
对于实例组名称,指定实例组的名称。
-
对于选择实例类型,请为实例组选择实例。
-
对于数量,请指定一个不超过集群使用实例配额的整数。
-
准备生命周期配置脚本然后上传到 Amazon S3 存储桶,如
s3://amzn-s3-demo-bucket-sagemaker>/<lifecycle-script-directory>/src/
。要快速入门,请
on_create.sh
从 AWS ome 分布式训练 GitHub 存储库下载示例脚本,然后将其上传到 S3 存储桶。此脚本设置了从 Pod 容器收集日志 /var/log/provision/provisioning.log
所需的 CloudWatch 日志文件。您还可以包括其他设置说明、一系列安装脚本或要在 HyperPod 集群配置阶段执行的命令。 -
对于 S3 存储桶生命周期脚本的 URI,请输入存储生命周期脚本的 Amazon S3 路径。
-
对于 Amazon S3 基本路径中入口点脚本的目录路径,请在 Amazon S3 生命周期脚本文件路径下输入生命周期脚本的文件名。如果您使用提供的示例脚本,请输入
on_create.sh
。 -
对于 IAM 角色,请按照本节选择您为 SageMaker HyperPod 资源创建的 IAM 角色的 IAM 角色适用于 SageMaker HyperPod。
-
在高级配置下,您可以设置以下可选配置。
-
(可选)对于每个内核线程数,指定
1
表示禁用多线程,指定2
表示启用多线程。要了解哪种实例类型支持多线程,请参阅 A mazon EC2 用户指南中每种实例类型的 CPU 内核和每 CPU 内核线程的参考表。 -
(可选)对于附加实例存储配置,指定 1 到 16384 之间的整数,以千兆字节(GB)为单位设置附加弹性块存储 (EBS) 卷的大小。EBS 卷附加到实例组的每个实例。附加 EBS 卷的默认挂载路径为
/opt/sagemaker
。成功创建集群后,您可以 SSH 登录集群实例(节点),并通过运行df -h
命令验证 EBS 卷是否已正确加载。如《Amazon Elastic Block Store 用户指南》中的 Amazon EBS 卷部分所述,附加 EBS 卷可提供稳定、非实例和独立持久化的存储。
-
-
-
在深度运行状况检查中,选择要在实例上运行的高级运行状况检查。要了解更多信息,请参阅 深度运行状况检查。
-
在步骤 3:高级配置中,配置集群内和集群 in-and-out的网络设置。为了使用 Amazon EKS 编排 SageMaker HyperPod 集群,VPC 会自动设置为使用您选择的 EKS 集群配置的 VPC。
-
在步骤 4:审查和创建中,审查从步骤 1 到步骤 3 设置的配置,并完成提交集群创建请求。
-
集群状态变为
InService
后,即可开始登录集群节点。要访问集群节点并开始运行 ML 工作负载,请参阅 SageMaker HyperPod 集群上的作业。