在 Amazon 编排的 SageMaker HyperPod 集群上运行作业 EKS - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在 Amazon 编排的 SageMaker HyperPod 集群上运行作业 EKS

以下主题提供了在使用 Amazon 编排的预配置 SageMaker HyperPod 集群上访问计算节点和运行机器学习工作负载的过程和示例。EKS根据您在集群上设置环境的方式,有多种方法可以在 HyperPod 集 HyperPod 群上运行 ML 工作负载。

提示

要获得有关如何设置和使用由 Amazon 精心策划的 SageMaker HyperPod 集群的实践经验和指导EKS,我们建议您参加此 Amazon Supp ort EKS 研讨会。 SageMaker HyperPod

数据科学家用户可以使用集群集作为EKS集群的协调器来训练基础模型。 SageMaker HyperPod 科学家利用SageMaker HyperPod CLI和原生kubectl命令来查找可用 SageMaker HyperPod 集群、提交训练作业 (Pod) 并管理其工作负载。 SageMaker HyperPod CLI允许使用训练作业架构文件提交作业,并提供作业列表、描述、取消和执行的功能。科学家可以使用 Kubeflow 训练操作员Kueue(用于作业排队的 K8s 工具)和 SageMaker-managed 来管理MLflow机器学习实验和训练运行。