使用 SageMaker HyperPod 控制台 UI - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 SageMaker HyperPod 控制台 UI

以下主题提供了有关如何 SageMaker HyperPod 通过控制台 UI 进行管理的指导。

创建集 SageMaker HyperPod 群

请参阅以下有关通过 SageMaker HyperPod 控制台 UI 创建新 SageMaker HyperPod 集群的说明。

  1. 打开 Amazon SageMaker 控制台,网址为https://console.aws.amazon.com/sagemaker/

  2. 在左侧导航窗格中选择 “HyperPod 集群”。

  3. 在 SageMaker HyperPod 登录页面中,选择创建 HyperPod集群

  4. 创建 HyperPod 集群的下拉菜单中,选择由 Slurm 编排

  5. 步骤 1:集群设置中,设置集群的基本信息。

    1. 集群名称中,为新集群指定一个名称。

    2. 对于标签,向新集群添加密钥和值对,并将该集群作为集群进行管理 AWS 资源。要了解更多信息,请参阅为你的 AWS 资源

  6. 步骤 2:实例组中,选择创建实例组。可以对每个实例组进行不同的配置,您可以创建一个由具有不同实例类型的多个实例组组组成的异构集群。在创建实例组配置弹出窗口中,填写实例组配置信息。

    1. 实例组名称中,指定实例组的名称。

    2. 选择实例类型中,选择实例组的实例。

    3. 在 “数量” 中,指定一个不超过集群使用量实例配额的整数。

    4. 对于生命周期脚本文件的 Amazon S3 路径,请输入存储生命周期脚本的 S3 路径。

    5. 创建时生命周期脚本的目录路径中,在生命周期脚本文件的 S3 路径下输入生命周期脚本的文件名。

    6. 对于IAM角色,请按照以下部分选择您为 SageMaker HyperPod 资源创建的IAM角色AWS Identity and Access Management 对于 SageMaker HyperPod

    7. 在 “高级配置” 下,您可以设置以下可选配置。

      1. (可选)对于每核线程数,请指定1禁用多线程和2启用多线程。要了解哪种实例类型支持多线程,请参阅 A mazon EC2 用户指南中每种实例类型的CPU内核和每CPU核心线程参考表。

      2. (可选)对于其他实例存储配置,请指定一个介于 1 和 16384 之间的整数,以设置额外的 Elastic Block Store (EBS) 卷的大小,单位为千兆字节 (GB)。该EBS卷将连接到实例组的每个实例。其他EBS卷的默认装载路径是/opt/sagemaker。成功创建集群后,您可以SSH进入集群实例(节点),并通过运行df -h命令来验证EBS卷是否已正确装载。如亚马逊弹性块存储用户指南中的亚马逊EBS卷部分所述,附加一个额外的EBS卷可提供稳定、非实例且独立的持久存储

  7. 步骤 3:高级配置中,配置集群内和 in-and-out 集群的可选网络设置。VPC如果您已经有可以 SageMaker 访问您的资源的资源,请选择您自己的VPC。如果要创建新的VPC,请参阅 Amazon Virtual Private Cloud 用户指南VPC中的创建默认值VPC或创建。如果你没有做出任何选择,它会选择你账户VPC的默认值。

    注意

    如果您想使用自己的 SageMaker HyperPod 集群VPC,则应为该IAM角色添加其他权限。要了解更多信息,请参阅 在 Amazon 上 SageMaker HyperPod进行设置 VPC

  8. 步骤 4:查看并创建中,查看您在步骤 1 到步骤 3 中设置的配置,并完成集群创建请求的提交。

  9. 集群状态变为后InService,您可以开始登录群集节点。要访问集群节点并开始运行 ML 工作负载,请参阅在 SageMaker HyperPod 集群上运行作业

浏览您的 SageMaker HyperPod 集群

在 SageMaker HyperPod 控制台主页的集群下,所有已创建的集群都应显示在 “集群” 部分下,该部分提供了集群及其ARNs状态和创建时间的摘要视图。

查看每个 SageMaker HyperPod 集群的详细信息

在控制台主页的集群下,集群名称被激活为链接。选择集群名称链接以查看每个集群的详细信息。

编辑集 SageMaker HyperPod 群

  1. 在 “集群” 下,选择要更新的集群。

  2. 选择 “操作” 按钮,然后选择 “编辑群集”

  3. 编辑<your-cluster>页面中,您可以编辑现有实例组的配置、添加更多实例组以及更改集群的标签。进行更改后,选择 “提交”。请注意,目前您无法减少或删除现有实例组。

    1. 配置实例组部分,您可以通过选择创建集群组来添加更多实例组

    2. 配置实例组部分,您可以选择其中一个实例组,然后选择编辑以更改其配置。

    3. 标签部分,您可以更新集群的标签。

删除集 SageMaker HyperPod 群

  1. 集群下,选择要删除的集群。

  2. 选择操作,然后选择删除集群

  3. 在删除集群的弹出窗口中,仔细查看集群信息,确认您选择了正确的集群进行删除。

  4. 查看集群信息后,选择是,删除集群

  5. 在要确认删除的文本字段中,键入delete

  6. 选择弹出窗口右下角的 “删除”,完成集群删除请求的发送。