使用 SageMaker HyperPod 控制台 UI - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 SageMaker HyperPod 控制台 UI

以下主题提供了有关如何 SageMaker HyperPod 通过控制台 UI 进行管理的指导。

创建 SageMaker HyperPod 集群

请参阅以下有关通过 SageMaker HyperPod 控制台 UI 创建新 SageMaker HyperPod 集群的说明。

  1. 打开 Amazon A SageMaker I 控制台,网址为https://console.aws.amazon.com/sagemaker/

  2. 在左侧导航窗格中选择集HyperPod 群,然后选择集群管理

  3. 在 SageMaker HyperPod 登录页面中,选择创建 HyperPod集群

  4. 创建 HyperPod 集群的下拉菜单中,选择由 Slurm 编排

  5. 步骤 1:集群设置中,设置集群的基本信息。

    1. 集群名称中,指定新集群的名称。

    2. 对于标签,向新集群添加密钥和值对,并将集群作为 AWS 资源进行管理。要了解更多信息,请参阅标记您的 AWS 资源

  6. 步骤 2:高级配置中,配置集群内和 in-and-out集群的可选网络设置。如果您已经有一个允许 SageMaker AI 访问您的 VPC 下资源的 VPC,请选择您自己的 VPC。如果要创建新的 VPC,请参阅《Amazon Virtual Private Cloud 用户指南》中的创建默认 VPC创建 VPC。如果您未做出任何选择,则 SageMaker 会自动使用与您的账户关联的默认 VPC。

    注意

    如果您想使用自己的 VPC,则应为 SageMaker HyperPod 集群的 IAM 角色添加额外权限。要了解更多信息,请参阅 SageMaker HyperPod使用自定义 Amazon VPC 进行设置

  7. 步骤 3:实例组中,选择创建实例组。每个实例组都可以进行不同的配置,您可以创建一个异构集群,该集群由具有不同实例类型的多个实例组组成。在弹出的创建实例组配置窗口中,填写实例组配置信息。

    1. 对于实例组名称,指定实例组的名称。

    2. 对于选择实例类型,请为实例组选择实例。

    3. 对于数量,请指定一个不超过集群使用实例配额的整数。要查看您当前的配额或申请增加配额,请参阅SageMaker HyperPod 配额

    4. 对于生命周期脚本文件的 S3 路径,请输入存储生命周期脚本的 Amazon S3 路径或使用 “浏览 S3” 选项。

    5. 对于创建时生命周期脚本的目录路径,请在 S3 下生命周期脚本文件的路径中输入生命周期脚本的文件名。

    6. 对于 IAM 角色,请按照本节选择您为 SageMaker HyperPod 资源创建的 IAM 角色AWS Identity and Access Management 对于 SageMaker HyperPod

    7. 高级配置下,您可以设置以下可选配置。

      1. (可选)对于每个内核线程数,指定 1 表示禁用多线程,指定 2 表示启用多线程。要了解哪种实例类型支持多线程,请参阅 A mazon EC2 用户指南中每种实例类型的 CPU 内核和每 CPU 内核线程的参考表。

      2. (可选)对于附加实例存储配置,指定 1 到 16384 之间的整数,以千兆字节(GB)为单位设置附加弹性块存储 (EBS) 卷的大小。EBS 卷附加到实例组的每个实例。附加 EBS 卷的默认挂载路径为 /opt/sagemaker。成功创建集群后,您可以 SSH 登录集群实例(节点),并通过运行 df -h 命令验证 EBS 卷是否已正确加载。如《Amazon Elastic Block Store 用户指南》中的 Amazon EBS 卷部分所述,附加 EBS 卷可提供稳定、非实例和独立持久化的存储。

  8. 步骤 4:审查和创建中,审查从步骤 1步骤 3 设置的配置,并完成提交集群创建请求。

  9. 集群状态变为 InService 后,即可开始登录集群节点。要访问集群节点并开始运行 ML 工作负载,请参阅 SageMaker HyperPod 集群上的作业

浏览您的 SageMaker HyperPod 集群

在控制台主页面 SageMaker HyperPod 控制台主窗格的集下,所有已创建的集群都应显示在 “集群” 部分下,该部分提供了集群及其 ARNs状态和创建时间的摘要视图。 SageMaker HyperPod

查看每个 SageMaker HyperPod 集群的详细信息

在管理控制台主页的集群下,集群名称已作为链接激活。选择集群名称链接,查看每个集群的详细信息。

编辑集 SageMaker HyperPod 群

  1. 在 SageMaker HyperPod控制台主窗格的集下,选择要更新的集群。

  2. 选择您的集群,然后选择编辑

  3. 编辑<your-cluster>页面中,您可以编辑现有实例组的配置、添加更多实例组、删除实例组以及更改集群的标签。更改后,选择提交

    1. 配置实例组部分,您可以通过选择创建实例组来添加更多实例组

    2. 配置实例组部分,您可以选择编辑以更改其配置,或者选择删除以永久删除实例组。

      重要

      删除实例组时,请考虑以下几点:

      • 您的 SageMaker HyperPod 集群必须始终维护至少一个实例组。

      • 确保在删除之前备份所有关键数据

      • 移除过程无法撤消。

      注意

      删除实例组将终止与该组关联的所有计算资源。

    3. 标签部分,您可以更新集群的标记。

删除集 SageMaker HyperPod 群

  1. 在 SageMaker HyperPod控制台主窗格的集下,选择要删除的集群。

  2. 选择您的集群,然后选择删除

  3. 在弹出的集群删除窗口中,仔细查看集群信息,确认选择了正确的集群进行删除。

  4. 查看集群信息后,选择是,删除集群

  5. 在确认删除的文本字段中键入 delete

  6. 在弹出窗口的右下角选择删除,完成集群删除请求的发送。