在 Amazon EKS 编排的 SageMaker HyperPod 集群上运行作业 - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在 Amazon EKS 编排的 SageMaker HyperPod 集群上运行作业

以下主题提供了在使用 Amazon EKS 编排的预配置 SageMaker HyperPod 集群上访问计算节点和运行机器学习工作负载的过程和示例。根据您在集群上设置环境的方式,有多种方法可以在 HyperPod 集 HyperPod 群上运行 ML 工作负载。

提示

要获得有关如何设置和使用由 Amazon EKS 编排的 SageMaker HyperPod 集群的实践经验和指导,我们建议您参加此次研讨会 Amazon EKS Su ppor t。 SageMaker HyperPod

数据科学家用户可以使用 EKS 集群集作为集群的协调器来训练基础模型。 SageMaker HyperPod 科学家们利用 SageMaker HyperPod CLI 和原生kubectl命令来查找可用 SageMaker HyperPod 集群、提交训练作业 (Pod) 并管理其工作负载。 SageMaker HyperPod CLI 支持使用训练作业架构文件提交作业,并提供任务列表、描述、取消和执行的功能。科学家可以根据由管理的计算配额使用 Kubeflow 训练运算符 HyperPod,并由 SageMaker AI 管理 MLflow来管理 ML 实验和训练运行。