本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
使用 Amazon 编排 SageMaker HyperPod 集群 EKS
SageMaker HyperPod 是一项 SageMaker托管服务,支持在长时间运行且具有弹性的计算集群上大规模训练基础模型,并与 Amazon 集成EKS以协调计算资源。 HyperPod 您可以使用具有 HyperPod弹性功能的 Amazon EKS 集群大规模运行长达数周或数月的不间断训练作业,这些功能可以检查各种硬件故障并自动恢复故障节点。
集群管理员用户的主要功能包括以下内容。
-
配置弹性 HyperPod 集群并将其连接到EKS控制平面
-
启用动态容量管理,例如添加更多节点、更新软件和删除集群
-
允许直接通过
kubectl
或 SSM /访问集群实例 SSH -
提供弹性功能,包括基本运行状况检查、深度运行状况检查、运行状况监控代理以及对作业自动恢复的 PyTorch 支持
-
与 Amazon Container Insights、适用于 Prometheus 的亚马逊托管服务和亚马逊托管 Grafana 等可观察性工具 CloudWatch集成
对于数据科学家用户,中的EKS支持 HyperPod 可实现以下功能。
-
在集群上运行用于训练基础模型的容器化工作负载 HyperPod
-
利用和之间的 HyperPod 集成,在EKS集群上运行推理 EKS
-
利用作业自动恢复功能进行 Kubeflow PyTorch
训练 () PyTorchJob
Amazon EKS 支持的高级架构 HyperPod 涉及EKS集群(控制平面)和中的集 HyperPod 群(工作节点)之间的一对一映射VPC,如下图所示。