使用 SageMaker HyperPod 控制台 UI - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 SageMaker HyperPod 控制台 UI

以下主题提供了有关如何 SageMaker HyperPod 通过控制台 UI 进行管理的指导。

创建集 SageMaker HyperPod 群

请参阅以下有关通过 SageMaker HyperPod 控制台 UI 创建新 SageMaker HyperPod 集群的说明。

  1. 打开 Amazon A SageMaker I 控制台,网址为https://console.aws.amazon.com/sagemaker/

  2. 在左侧导航窗格中选择HyperPod 集群

  3. 在 SageMaker HyperPod 登录页面中,选择创建 HyperPod集群

  4. 创建 HyperPod 集群的下拉菜单中,选择由 Slurm 编排

  5. 步骤 1:集群设置中,设置集群的基本信息。

    1. 集群名称中,指定新集群的名称。

    2. 对于标签,向新集群添加密钥和值对,并将集群作为 AWS 资源进行管理。要了解更多信息,请参阅为AWS 资源添加标签

  6. 步骤 2:实例组中,选择创建实例组。每个实例组都可以进行不同的配置,您可以创建一个异构集群,该集群由具有不同实例类型的多个实例组组成。在弹出的创建实例组配置窗口中,填写实例组配置信息。

    1. 对于实例组名称,指定实例组的名称。

    2. 对于选择实例类型,请为实例组选择实例。

    3. 对于数量,请指定一个不超过集群使用实例配额的整数。

    4. 对于 Amazon S3 路径中的生命周期脚本文件,请输入存储生命周期脚本的 S3 路径。

    5. 对于创建时生命周期脚本的目录路径,请在 S3 下生命周期脚本文件的路径中输入生命周期脚本的文件名。

    6. 对于 IAM 角色,请按照本节选择您为 SageMaker HyperPod 资源创建的 IAM 角色AWS Identity and Access Management 对于 SageMaker HyperPod

    7. 高级配置下,您可以设置以下可选配置。

      1. (可选)对于每个内核线程数,指定 1 表示禁用多线程,指定 2 表示启用多线程。要了解哪种实例类型支持多线程,请参阅 A mazon EC2 用户指南中每种实例类型的 CPU 核心和每 CPU 核心线程的参考表。

      2. (可选)对于附加实例存储配置,指定 1 到 16384 之间的整数,以千兆字节(GB)为单位设置附加弹性块存储 (EBS) 卷的大小。EBS 卷附加到实例组的每个实例。附加 EBS 卷的默认挂载路径为 /opt/sagemaker。成功创建集群后,您可以 SSH 登录集群实例(节点),并通过运行 df -h 命令验证 EBS 卷是否已正确加载。如《Amazon Elastic Block Store 用户指南》中的 Amazon EBS 卷部分所述,附加 EBS 卷可提供稳定、非实例和独立持久化的存储。

  7. 步骤 3:高级配置中,配置集群内和 in-and-out集群的可选网络设置。如果您已经有可以让 SageMaker AI 访问您的 VPC 下资源的 VPC,请选择您自己的 VPC。如果要创建新的 VPC,请参阅《Amazon Virtual Private Cloud 用户指南》中的创建默认 VPC创建 VPC。如果您不做任何选择,它就会使用账户的默认 VPC。

    注意

    如果您想使用自己的 VPC,则应为 SageMaker HyperPod 集群的 IAM 角色添加额外权限。要了解更多信息,请参阅 SageMaker HyperPod使用您的亚马逊 VPC 进行设置

  8. 步骤 4:审查和创建中,审查从步骤 1步骤 3 设置的配置,并完成提交集群创建请求。

  9. 集群状态变为 InService 后,即可开始登录集群节点。要访问集群节点并开始运行 ML 工作负载,请参阅 SageMaker HyperPod 集群上的作业

浏览您的 SageMaker HyperPod 集群

在 SageMaker HyperPod 控制台主页的集群下,所有已创建的集群都应显示在 “集群” 部分下,该部分提供了集群及其 ARNs状态和创建时间的摘要视图。

查看每个 SageMaker HyperPod 集群的详细信息

在管理控制台主页的集群下,集群名称已作为链接激活。选择集群名称链接,查看每个集群的详细信息。

编辑集 SageMaker HyperPod 群

  1. 集群下,选择要更新的集群。

  2. 选择操作按钮,然后选择编辑集群

  3. 编辑 <your-cluster> 页面,您可以编辑现有实例组的配置,添加更多实例组,并更改集群的标记。更改后,选择提交。请注意,您目前不能减少或删除现有实例组。

    1. 配置实例组部分,您可以通过选择创建集群来添加更多实例组。

    2. 配置实例组部分,可以选择其中一个实例组,并选择编辑来更改其配置。

    3. 标签部分,您可以更新集群的标记。

删除集 SageMaker HyperPod 群

  1. 集群下,选择要删除的集群。

  2. 选择操作,然后选择删除集群

  3. 在弹出的集群删除窗口中,仔细查看集群信息,确认选择了正确的集群进行删除。

  4. 查看集群信息后,选择是,删除集群

  5. 在确认删除的文本字段中键入 delete

  6. 在弹出窗口的右下角选择删除,完成集群删除请求的发送。