本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
使用 SageMaker HyperPod 控制台 UI
以下主题提供了有关如何 SageMaker HyperPod 通过控制台 UI 进行管理的指导。
主题
创建集 SageMaker HyperPod 群
请参阅以下有关通过 SageMaker HyperPod 控制台 UI 创建新 SageMaker HyperPod 集群的说明。
-
打开 Amazon A SageMaker I 控制台,网址为https://console.aws.amazon.com/sagemaker/
。 -
在左侧导航窗格中选择HyperPod 集群。
-
在 SageMaker HyperPod 登录页面中,选择创建 HyperPod集群。
-
从创建 HyperPod 集群的下拉菜单中,选择由 Slurm 编排。
-
在步骤 1:集群设置中,设置集群的基本信息。
-
在集群名称中,指定新集群的名称。
-
对于标签,向新集群添加密钥和值对,并将集群作为 AWS 资源进行管理。要了解更多信息,请参阅为AWS 资源添加标签。
-
-
在步骤 2:实例组中,选择创建实例组。每个实例组都可以进行不同的配置,您可以创建一个异构集群,该集群由具有不同实例类型的多个实例组组成。在弹出的创建实例组配置窗口中,填写实例组配置信息。
-
对于实例组名称,指定实例组的名称。
-
对于选择实例类型,请为实例组选择实例。
-
对于数量,请指定一个不超过集群使用实例配额的整数。
-
对于 Amazon S3 路径中的生命周期脚本文件,请输入存储生命周期脚本的 S3 路径。
-
对于创建时生命周期脚本的目录路径,请在 S3 下生命周期脚本文件的路径中输入生命周期脚本的文件名。
-
对于 IAM 角色,请按照本节选择您为 SageMaker HyperPod 资源创建的 IAM 角色AWS Identity and Access Management 对于 SageMaker HyperPod。
-
在高级配置下,您可以设置以下可选配置。
-
(可选)对于每个内核线程数,指定
1
表示禁用多线程,指定2
表示启用多线程。要了解哪种实例类型支持多线程,请参阅 A mazon EC2 用户指南中每种实例类型的 CPU 核心和每 CPU 核心线程的参考表。 -
(可选)对于附加实例存储配置,指定 1 到 16384 之间的整数,以千兆字节(GB)为单位设置附加弹性块存储 (EBS) 卷的大小。EBS 卷附加到实例组的每个实例。附加 EBS 卷的默认挂载路径为
/opt/sagemaker
。成功创建集群后,您可以 SSH 登录集群实例(节点),并通过运行df -h
命令验证 EBS 卷是否已正确加载。如《Amazon Elastic Block Store 用户指南》中的 Amazon EBS 卷部分所述,附加 EBS 卷可提供稳定、非实例和独立持久化的存储。
-
-
-
在步骤 3:高级配置中,配置集群内和 in-and-out集群的可选网络设置。如果您已经有可以让 SageMaker AI 访问您的 VPC 下资源的 VPC,请选择您自己的 VPC。如果要创建新的 VPC,请参阅《Amazon Virtual Private Cloud 用户指南》中的创建默认 VPC 或创建 VPC。如果您不做任何选择,它就会使用账户的默认 VPC。
注意
如果您想使用自己的 VPC,则应为 SageMaker HyperPod 集群的 IAM 角色添加额外权限。要了解更多信息,请参阅 SageMaker HyperPod使用您的亚马逊 VPC 进行设置。
-
在步骤 4:审查和创建中,审查从步骤 1 到步骤 3 设置的配置,并完成提交集群创建请求。
-
集群状态变为
InService
后,即可开始登录集群节点。要访问集群节点并开始运行 ML 工作负载,请参阅 SageMaker HyperPod 集群上的作业。
浏览您的 SageMaker HyperPod 集群
在 SageMaker HyperPod 控制台主页的集群下,所有已创建的集群都应显示在 “集群” 部分下,该部分提供了集群及其 ARNs状态和创建时间的摘要视图。
查看每个 SageMaker HyperPod 集群的详细信息
在管理控制台主页的集群下,集群名称已作为链接激活。选择集群名称链接,查看每个集群的详细信息。
编辑集 SageMaker HyperPod 群
-
在集群下,选择要更新的集群。
-
选择操作按钮,然后选择编辑集群。
-
在编辑 <your-cluster> 页面,您可以编辑现有实例组的配置,添加更多实例组,并更改集群的标记。更改后,选择提交。请注意,您目前不能减少或删除现有实例组。
-
在配置实例组部分,您可以通过选择创建集群来添加更多实例组。
-
在配置实例组部分,可以选择其中一个实例组,并选择编辑来更改其配置。
-
在标签部分,您可以更新集群的标记。
-
删除集 SageMaker HyperPod 群
-
在集群下,选择要删除的集群。
-
选择操作,然后选择删除集群。
-
在弹出的集群删除窗口中,仔细查看集群信息,确认选择了正确的集群进行删除。
-
查看集群信息后,选择是,删除集群。
-
在确认删除的文本字段中键入
delete
。 -
在弹出窗口的右下角选择删除,完成集群删除请求的发送。