创建 SageMaker HyperPod 集群 - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

创建 SageMaker HyperPod 集群

请参阅以下有关使用 SageMaker HyperPod 控制台 UI 创建新 SageMaker HyperPod 集群的说明。

  1. 打开 Amazon A SageMaker I 控制台,网址为https://console.aws.amazon.com/sagemaker/

  2. 在左侧导航窗格中选择HyperPod 集群

  3. 在 SageMaker HyperPod 登录页面中,选择创建 HyperPod 集群

  4. 创建 HyperPod集群的下拉菜单中,选择由 Amazon EKS 编排

  5. 从 Amazon EKS 集群列表中,选择要用来配置新集群的 EKS HyperPod 集群。

    1. 如果您需要创建新的 EKS 集群,请选择创建 EKS 集群。您可以从 EKS 集群列表页面创建它,而无需打开 Amazon EKS 管理控制台。

      注意

      您选择的 VPC 子网必须是私 HyperPod 有的。

    2. 提交新的 EKS 集群创建请求后,请等待 EKS 集群变为活动状态。

    3. 按照 使用 Helm 在 Amazon EKS 集群上安装软件包 中的说明安装 Helm 图表。

    4. EKS 集群创建完成后,选择创建 HyperPod 集群,然后再次选择 E KS 编排。您应该可以找到并选择新的 EKS 集群。要继续,请选择选择

  6. 配置新 HyperPod集群页面上,设置集群的基本信息,例如名称、启用 HyperPod 集群弹性功能的选项和标签。

  7. 集群名称中,指定新集群的名称。

  8. 对于集群弹性-节点恢复Automatic请指定启用自动节点恢复。 SageMaker HyperPod当运行状况监控代理发现问题时,替换或重启实例(节点)。

  9. 对于标签,向新集群添加密钥和值对,并将集群作为 AWS 资源进行管理。要了解更多信息,请参阅为AWS 资源添加标签

  10. 步骤 2:配置实例组中,选择创建实例组。每个实例组都可以进行不同的配置,您可以创建一个异构集群,该集群由具有不同实例类型的多个实例组组成。在弹出的创建实例组配置窗口中,填写实例组配置信息。

    弹出创建实例组页面,按照用户界面指南配置新实例组。

    1. 对于实例组名称,指定实例组的名称。

    2. 对于选择实例类型,请为实例组选择实例。

    3. 对于数量,请指定一个不超过集群使用实例配额的整数。

    4. 准备生命周期配置脚本然后上传到 Amazon S3 存储桶,如 s3://amzn-s3-demo-bucket-sagemaker>/<lifecycle-script-directory>/src/

      要快速入门,请on_create.sh从 AWS ome 分布式训练 GitHub 存储库下载示例脚本,然后将其上传到 S3 存储桶。此脚本设置了从 Pod 容器收集日志/var/log/provision/provisioning.log所需的 CloudWatch 日志文件。您还可以包括其他设置说明、一系列安装脚本或要在 HyperPod 集群配置阶段执行的命令。

    5. 对于 S3 存储桶生命周期脚本的 URI,请输入存储生命周期脚本的 Amazon S3 路径。

    6. 对于 Amazon S3 基本路径中入口点脚本的目录路径,请在 Amazon S3 生命周期脚本文件路径下输入生命周期脚本的文件名。如果您使用提供的示例脚本,请输入 on_create.sh

    7. 对于 IAM 角色,请按照本节选择您为 SageMaker HyperPod 资源创建的 IAM 角色的 IAM 角色适用于 SageMaker HyperPod

    8. 高级配置下,您可以设置以下可选配置。

      1. (可选)对于每个内核线程数,指定 1 表示禁用多线程,指定 2 表示启用多线程。要了解哪种实例类型支持多线程,请参阅 A mazon EC2 用户指南中每种实例类型的 CPU 内核和每 CPU 内核线程的参考表。

      2. (可选)对于附加实例存储配置,指定 1 到 16384 之间的整数,以千兆字节(GB)为单位设置附加弹性块存储 (EBS) 卷的大小。EBS 卷附加到实例组的每个实例。附加 EBS 卷的默认挂载路径为 /opt/sagemaker。成功创建集群后,您可以 SSH 登录集群实例(节点),并通过运行 df -h 命令验证 EBS 卷是否已正确加载。如《Amazon Elastic Block Store 用户指南》中的 Amazon EBS 卷部分所述,附加 EBS 卷可提供稳定、非实例和独立持久化的存储。

  11. 深度运行状况检查中,选择要在实例上运行的高级运行状况检查。要了解更多信息,请参阅 深度运行状况检查

  12. 步骤 3:高级配置中,配置集群内和集群 in-and-out的网络设置。为了使用 Amazon EKS 编排 SageMaker HyperPod 集群,VPC 会自动设置为使用您选择的 EKS 集群配置的 VPC。

  13. 步骤 4:审查和创建中,审查从步骤 1步骤 3 设置的配置,并完成提交集群创建请求。

  14. 集群状态变为 InService 后,即可开始登录集群节点。要访问集群节点并开始运行 ML 工作负载,请参阅 SageMaker HyperPod 集群上的作业